我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:全民彩票 > 多级中断 >

博士论文实时图像处理中嵌入式硬件并行结构的研究pdf

归档日期:06-03       文本归类:多级中断      文章编辑:爱尚语录

  1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

  密级 分类号 UDC 编号 8015107B024 中国科学院研究生院 博士学位论文 实时图像处理中 嵌入式硬件并行结构的研究 苏海冰 指 导 教 师 吴钦章 研究员 中国科学院光电技术研究所 申请学位级别 博士 学科专业名称 光学工程 论文提交日期 2007.5 论文答辩日期 2007.6 培养单位 中国科学院光电技术研究所 学位授予单位 中国科学院研究生院 答辩委员会主席 本 人 申 明 本人郑重申明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律责任由本人承担。 论文作者签名: 日期: 关于学位论文使用授权的声明 本人完全了解中国科学院光电技术研究所有关保留、使用学位论文的 规定,同意中国科学院光电技术研究所保留或向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅;本人授权中国科学院光 电技术研究所可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。 (保密论文在解密后应遵守此规定) 论文作者签名: 导师签名: 日期: 摘 要 论文旨在研究实时图像处理系统中的嵌入式硬件并行架构。在简单介绍了并行图像处 理系统的发展历史和现状之后,就光学成像跟踪的应用场景对实时图像处理技术的迫切需 求进行了分析。 针对图像识别在不同层次上的理解意义,深入分析了数字图像处理算法的结构特点, 对点处理算法和邻域处理算法的操作模式与数据结构有了详细的描述,并在此基础上说明 了数字图像处理的基本特征和适合于硬件并行处理的方法。 在分析了可扩展并行计算机系统的构成方式、互连网络和存储结构之后,对比其并行 结构的继承性,对嵌入式硬件并行架构在实时图像处理上的设计方法和思想进行了说明, 从器件的片内结构、片间或机群结构论证了主要硬件处理单元DSP 和FPGA 的并行处理能 力,给出了用FPGA 实现的多种硬件算法结构和性能分析,并对并行处理系统的可扩展性 和异构性进行了理论分析。 通过介绍多DSP+FPGA 的系统结构,详细分析了图像处理算法和硬件并行结构的配合 能力,对多模跟踪算法的实现进行了细致的讨论。并就DSP 和FPGA 的处理性能进行了对 比分析,指出了FPGA 在实时图像处理算法实现上的强大硬件加速能力。 最后针对当前硬件结构中存在DSP 之间通信能力弱的问题,在实时图像处理中直接影 响到了难以突破100Hz 的帧频限制,跟随最新器件的发展,提出了使用高速串行接口解决 并行系统互连能力的方案。并针对人工神经网络对图像识别的巨大意义,提出了构建基于 神经元的硬件并行结构的技术展望。 关键词:实时图像处理,并行结构,嵌入式,硬件算法,FPGA,DSP 本文作者签名 I Study on Hardware Architectures of Embedded Parallel System In Real-time Image Processing Su HaiBing Directed by: Prof. Wu QinZhang Abstract The purpose of this Ph D dissertation is to study the hardware architectures of embedded parallel system in real-time image processing. After simply introducing the developing history and the current situation of parallel image processing system, it analyses the urgent requirement of the parallel system for electro-optical detection. With responding to the hiberarchy of target automatic recognition and tracking, it analyses the structure character of digital image processing algorithms. Based on anatomizing operating mode and data structure of pixel processing and neighborhood processing, it researches the essential character of processing course and the suitable hardware parallel architectures for digital image processing algorithms. After analyzing the constitutes mode、interconnection network and storage structure of the extensible computer parallel system, by inheriting the comparability of parallel architectures, it brings up the design route and method of designing a embedded parallel system. It demonstrates the parallel processing potential of DSP and FPGA by analyzing the chip structure、board structure and equipment cluster, and it provides the hardware structures and processing performance in a achieved algorithms in FPGA. And it yet analyzes the expansibility and heterogeneity of parallel system in theoretics. By introducing a system architecture which are made up of multi-DSP and multi-FPGA, it demonstrates the integrated ability between software algorithms and hardware structure, and specify how to design a multiple-model tracking system in detail. After comparing the processing ability between DSP and FPGA, It indicates that the great ability exaltation during accomplishing algorithms function by using FPGA . Following the development of the latest component, it exhibit a thought to solve the communication bottle-neck between process unit by improve interconnection ability by using a high-speed serial on Gbit/S. And aiming at the importance significance of artificial neural networks in real-time image processing, it attempts to prospect the technique of establishing the hardware architectures based on nerve cell. Key Words: Real-time Image Processing, Parallel Architecture, Embedded Device, Hardware Algorithm, DSP , FPGA II 实时图像处理中嵌入式硬件并行结构的研究 目 录 第一章 绪论……………………………………………………………………………………1 1.1引言………………………………………………………………………………………1 1.2并行图像处理系统的发展需求和现状…………………………………………………2 1.2.1可扩展并行计算机系统……………………………………………………………4 1.2.2嵌入式并行处理系统………………………………………………………………7 1.2.3并行处理系统性能分析 …………………………………………………………12 1.3论文结构安排 …………………………………………………………………………13 参考文献 ……………………………………………………………………………………15 第二章 数字图像处理算法结构的特点分析 ………………………………………………18 2.1数字图象处理算法的结构特点 ………………………………………………………18 2.1.1数据处理层的算法结构特点 ……………………………………………………19 均值滤波……………………………………………………………………20 Roberts 算子………………………………………………………………21 低通滤波法…………………………………………………………………21 空间高通滤波………………………………………………………………22 Sobel 算子…………………………………………………………………23 Laplacian 算子………………………………………………………………23 中值滤波……………………………………………………………………24 2.1.2信息提取层的算法结构特点 ……………………………………………………25 图像分割……………………………………………………………………25 连通性判别…………………………………………………………………27 2.1.3知识应用层的算法结构特点 ……………………………………………………28 模板匹配……………………………………………………………………28 航迹预测……………………………………………………………………30 基于多模跟踪的任务并行…………………………………………………31 2.2 数字图象处理的基本特性 ……………………………………………………………32 2.3 数字图象处理算法的优化 ……………………………………………………………33 参考文献 ……………………………………………………………………………………35 第三章 实时图像的硬件并行结构研究 ……………………………………………………36 3.1并行处理实现的技术途径 ……………………………………………………………37 VI 实时图像处理中嵌入式硬件并行结构的研究 3.2可扩展并行计算机系统的结构 ………………………………………………………37 3.2.1 并行处理计算机系统的构成方式………………………………………………38 3.2.2 并行处理计算机系统的互连网络和存储结构…………………………………40 3.3嵌入式硬件并行结构的分析 …………………………………………………………45 3.3.1 片内的并行结构…………………………………………………………………46 处理器的片内并行结构……………………………………………………46 FPGA 片内与片外的并行结构……………………………………………56 3.3.2处理器件的片间并行结构 ………………………………………………………57 DSP 与 DSP 之间的并行结构………………………………………………57 DSP 与 FPGA 之间的并行结构 …………………………………………61 3.3.3 处理器件的板间或机群并行结构 ………………………………………………62 3.4 并行体系结构的可扩展性 ……………………………………………………………65 3.5 SIMD 和 MIMD 的异构性 ……………………………………………………………70 参考文献 ……………………………………………………………………………………74 第四章 FPGA 结构分析和硬件算法实现 …………………………………………………76 4.1 FPGA 综述………………………………………………………………………………76 4.1.1 FPGA 和 CPLD 的对比…………………………………………………………77 4.1.2 SOPC 成为 FPGA 的发展趋势…………………………………………………78 4.1.3用 FPGA 实现 DSP………………………………………………………………80 4.2 FPGA 结构分析………………………………………………………………………81 4.3物理综合对 FPGA 设计的支持 ………………………………………………………86 4.4 FPGA 的硬件算法实现 ………………………………………………………………87 参考文献 ……………………………………………………………………………………96 第五章 用多 DSP 和 FPGA 在实时图像处理中实现多模跟踪……………………………97 5.1 数据融合的技术基础 …………………………………………………………………97 5.2 多模实时图像跟踪系统的设计 ………………………………………………………99 5.2.1多模跟踪系统的算法与硬件结构分析…………………………………………101 5.2.2多模跟踪系统的硬件性能分析…………………………………………………107 5.3高速数字电路的设计和仿真…………………………………………………………112 5.3.1高速数字电路设计的基本要求…………………………………………………113 5.3.2高速数字电路设计仿真举例……………………………………………………118 参考文献……………………………………………………………………………………121 VII 实时图像处理中嵌入式硬件并行结构的研究 第六章 结束语………………………………………………………………………………122 6.1用高速串行结构解决并行系统互联…………………………………………………122 6.2基于神经元的硬件并行结构…………………………………………………………124 6.3论文的创新点…………………………………………………………………………127 参考文献……………………………………………………………………………………128 致 谢…………………………………………………………………………………………129 VIII 密级 分类号 UDC 编号 8015107B024 中国科学院研究生院 博士学位论文 实时图像处理中 嵌入式硬件并行结构的研究 苏海冰 指 导 教 师 吴钦章 研究员 中国科学院光电技术研究所 申请学位级别 博士 学科专业名称 光学工程 论文提交日期 2007.5 论文答辩日期 2007.6 培养单位 中国科学院光电技术研究所 学位授予单位 中国科学院研究生院 答辩委员会主席 本 人 申 明 本人郑重申明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何 其他个人或集体已经发表或撰写过的科研成果。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律责任由本人承担。 论文作者签名: 日期: 关于学位论文使用授权的声明 本人完全了解中国科学院光电技术研究所有关保留、使用学位论文的 规定,同意中国科学院光电技术研究所保留或向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅;本人授权中国科学院光 电技术研究所可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。 (保密论文在解密后应遵守此规定) 论文作者签名: 导师签名: 日期: 摘 要 论文旨在研究实时图像处理系统中的嵌入式硬件并行架构。在简单介绍了并行图像处 理系统的发展历史和现状之后,就光学成像跟踪的应用场景对实时图像处理技术的迫切需 求进行了分析。 针对图像识别在不同层次上的理解意义,深入分析了数字图像处理算法的结构特点, 对点处理算法和邻域处理算法的操作模式与数据结构有了详细的描述,并在此基础上说明 了数字图像处理的基本特征和适合于硬件并行处理的方法。 在分析了可扩展并行计算机系统的构成方式、互连网络和存储结构之后,对比其并行 结构的继承性,对嵌入式硬件并行架构在实时图像处理上的设计方法和思想进行了说明, 从器件的片内结构、片间或机群结构论证了主要硬件处理单元DSP 和FPGA 的并行处理能 力,给出了用FPGA 实现的多种硬件算法结构和性能分析,并对并行处理系统的可扩展性 和异构性进行了理论分析。 通过介绍多DSP+FPGA 的系统结构,详细分析了图像处理算法和硬件并行结构的配合 能力,对多模跟踪算法的实现进行了细致的讨论。并就DSP 和FPGA 的处理性能进行了对 比分析,指出了FPGA 在实时图像处理算法实现上的强大硬件加速能力。 最后针对当前硬件结构中存在DSP 之间通信能力弱的问题,在实时图像处理中直接影 响到了难以突破100Hz 的帧频限制,跟随最新器件的发展,提出了使用高速串行接口解决 并行系统互连能力的方案。并针对人工神经网络对图像识别的巨大意义,提出了构建基于 神经元的硬件并行结构的技术展望。 关键词:实时图像处理,并行结构,嵌入式,硬件算法,FPGA,DSP 本文作者签名 I Study on Hardware Architectures of Embedded Parallel System In Real-time Image Processing Su HaiBing Directed by: Prof. Wu QinZhang Abstract The purpose of this Ph D dissertation is to study the hardware architectures of embedded parallel system in real-time image processing. After simply introducing the developing history and the current situation of parallel image processing system, it analyses the urgent requirement of the parallel system for electro-optical detection. With responding to the hiberarchy of target automatic recognition and tracking, it analyses the structure character of digital image processing algorithms. Based on anatomizing operating mode and data structure of pixel processing and neighborhood processing, it researches the essential character of processing course and the suitable hardware parallel architectures for digital image processing algorithms. After analyzing the constitutes mode、interconnection network and storage structure of the extensible computer parallel system, by inheriting the comparability of parallel architectures, it brings up the design route and method of designing a embedded parallel system. It demonstrates the parallel processing potential of DSP and FPGA by analyzing the chip structure、board structure and equipment cluster, and it provides the hardware structures and processing performance in a achieved algorithms in FPGA. And it yet analyzes the expansibility and heterogeneity of parallel system in theoretics. By introducing a system architecture which are made up of multi-DSP and multi-FPGA, it demonstrates the integrated ability between software algorithms and hardware structure, and specify how to design a multiple-model tracking system in detail. After comparing the processing ability between DSP and FPGA, It indicates that the great ability exaltation during accomplishing algorithms function by using FPGA . Following the development of the latest component, it exhibit a thought to solve the communication bottle-neck between process unit by improve interconnection ability by using a high-speed serial on Gbit/S. And aiming at the importance significance of artificial neural networks in real-time image processing, it attempts to prospect the technique of establishing the hardware architectures based on nerve cell. Key Words: Real-time Image Processing, Parallel Architecture, Embedded Device, Hardware Algorithm, DSP , FPGA II 实时图像处理中嵌入式硬件并行结构的研究 目 录 第一章 绪论……………………………………………………………………………………1 1.1引言………………………………………………………………………………………1 1.2并行图像处理系统的发展需求和现状…………………………………………………2 1.2.1可扩展并行计算机系统……………………………………………………………4 1.2.2嵌入式并行处理系统………………………………………………………………7 1.2.3并行处理系统性能分析 …………………………………………………………12 1.3论文结构安排 …………………………………………………………………………13 参考文献 ……………………………………………………………………………………15 第二章 数字图像处理算法结构的特点分析 ………………………………………………18 2.1数字图象处理算法的结构特点 ………………………………………………………18 2.1.1数据处理层的算法结构特点 ……………………………………………………19 均值滤波……………………………………………………………………20 Roberts 算子………………………………………………………………21 低通滤波法…………………………………………………………………21 空间高通滤波………………………………………………………………22 Sobel 算子…………………………………………………………………23 Laplacian 算子………………………………………………………………23 中值滤波……………………………………………………………………24 2.1.2信息提取层的算法结构特点 ……………………………………………………25 图像分割……………………………………………………………………25 连通性判别…………………………………………………………………27 2.1.3知识应用层的算法结构特点 ……………………………………………………28 模板匹配……………………………………………………………………28 航迹预测……………………………………………………………………30 基于多模跟踪的任务并行…………………………………………………31 2.2 数字图象处理的基本特性 ……………………………………………………………32 2.3 数字图象处理算法的优化 ……………………………………………………………33 参考文献 ……………………………………………………………………………………35 第三章 实时图像的硬件并行结构研究 ……………………………………………………36 3.1并行处理实现的技术途径 ……………………………………………………………37 VI 实时图像处理中嵌入式硬件并行结构的研究 3.2可扩展并行计算机系统的结构 ………………………………………………………37 3.2.1 并行处理计算机系统的构成方式………………………………………………38 3.2.2 并行处理计算机系统的互连网络和存储结构…………………………………40 3.3嵌入式硬件并行结构的分析 …………………………………………………………45 3.3.1 片内的并行结构…………………………………………………………………46 处理器的片内并行结构……………………………………………………46 FPGA 片内与片外的并行结构……………………………………………56 3.3.2处理器件的片间并行结构 ………………………………………………………57 DSP 与 DSP 之间的并行结构………………………………………………57 DSP 与 FPGA 之间的并行结构 …………………………………………61 3.3.3 处理器件的板间或机群并行结构 ………………………………………………62 3.4 并行体系结构的可扩展性 ……………………………………………………………65 3.5 SIMD 和 MIMD 的异构性 ……………………………………………………………70 参考文献 ……………………………………………………………………………………74 第四章 FPGA 结构分析和硬件算法实现 …………………………………………………76 4.1 FPGA 综述………………………………………………………………………………76 4.1.1 FPGA 和 CPLD 的对比…………………………………………………………77 4.1.2 SOPC 成为 FPGA 的发展趋势…………………………………………………78 4.1.3用 FPGA 实现 DSP………………………………………………………………80 4.2 FPGA 结构分析………………………………………………………………………81 4.3物理综合对 FPGA 设计的支持 ………………………………………………………86 4.4 FPGA 的硬件算法实现 ………………………………………………………………87 参考文献 ……………………………………………………………………………………96 第五章 用多 DSP 和 FPGA 在实时图像处理中实现多模跟踪……………………………97 5.1 数据融合的技术基础 …………………………………………………………………97 5.2 多模实时图像跟踪系统的设计 ………………………………………………………99 5.2.1多模跟踪系统的算法与硬件结构分析…………………………………………101 5.2.2多模跟踪系统的硬件性能分析…………………………………………………107 5.3高速数字电路的设计和仿真…………………………………………………………112 5.3.1高速数字电路设计的基本要求…………………………………………………113 5.3.2高速数字电路设计仿真举例……………………………………………………118 参考文献……………………………………………………………………………………121 VII 实时图像处理中嵌入式硬件并行结构的研究 第六章 结束语………………………………………………………………………………122 6.1用高速串行结构解决并行系统互联…………………………………………………122 6.2基于神经元的硬件并行结构…………………………………………………………124 6.3论文的创新点…………………………………………………………………………127 参考文献……………………………………………………………………………………128 致 谢…………………………………………………………………………………………129 VIII 第一章 绪论 第一章 绪 论 1.1 引言 光学成像自动目标识别跟踪技术是 60 年代发展起来的一门新兴学科,它是图像处 理、自动控制和信息科学的有机结合。由于受当时技术水平的限制,系统还未达到实用 的程度。到7O年代末,8O年代初,随着现代微电子技术与计算机技术的进步,使其获 得迅速发展。利用视觉图像进行目标识别跟踪可利用的信息量非常丰富,相对于非成像 识别跟踪器只是利用目标的辐射强度作为识别跟踪信息,具有明显的优越性,这表现在 [17,21] : (1) 隐蔽性好,抗干扰能力强。可见光和红外等成像识别跟踪采用无源工作方式,通 过探测器成像来获取景物信息,不会受到电子干扰。而雷达属主动探测设备,容易遭到 电子干扰和攻击,事实证明要保持绝对“电子寂静”,唯一可选的是光电装置,光电装 置包括可见光、红外、激光或其它微光; (2) 可全方位探测,跟踪精度高。可见光和红外探测不受探测角度限制,不象雷达探 测存在死角,对于掠海或低空目标识别和跟踪非常有效; (3) 图像可见,分辨率高; (4) 红外探测器和微光探测器的运用使成像识别与跟踪系统可全天候工作; (5) 相对微波雷达等非成像识别跟踪设备,可见光和红外成像识别跟踪器性价比较 高。 由于自动目标识别跟踪有着其它识别跟踪技术不可替代的优点,所以长期以来一直 广泛应用于天文观测、机器视觉、交通监控、可视预警等领域。但由于技术上的复杂性, 仍存在着一系列的理论与技术难题,有待进一步研究与开发。其中最基本的难题是实时 性的要求,要使系统必须具有极高的数据流量与极高的处理速度,这对于一般的冯·诺 依曼体系结构是根本无法实现的,只有借助于计算机并行体系结构与专用硬件的巧妙配 合。 从数字计算机诞生之日起,计算机技术就在人们对信息处理能力需求的不断增长和 计算机系统有限的处理能力之间的矛盾中不断发展。计算机系统性能增长的根本因素有 两个;一个是随微电子技术取得的进步,这带来高速时钟下的强大处理能力;另一个就 1 实时图像处理中嵌入式硬件并行结构的研究 是以并行处理技术为主体的计算机体系结构的发展,这是站在现代微电子技术之上的高 带宽、高处理能力的超级计算架构。目前微电子技术的发展虽然未必接近了其物理极限, 但建立在硅片上的微电子技术随着高速时钟频率的迅速增加和设计规模的极大膨胀,其 设计周期、风险成本却面临着巨大挑战;因而对并行处理技术的研究就显得更加迫切。 在并行处理研究领域中,面向实时信号的并行处理系统的研究比之通用并行计算机 的研究不论在深度还是广度上均有相当的不足,因而在对信号处理实时性要求较高的光 学成像自动目标识别跟踪技术等领域加强对并行处理技术的研究是具有相当理论和工 程意义的。 1.2 并行图像处理系统的发展需求和现状[1-29] 从实质上讲,对图像处理能力的追求就是对高速计算能力的追求。近几年来,每秒 数百亿次、数千亿次乃至数万亿次计算能力的高端并行机已相继研制成功,使得以前由 于无法满足计算能力或实时性要求的许多求解和研究问题现在已经成为可能[59]。 高性能计算的需求一直是没有止境的,如实时图像处理、全球气候预测、石油勘探、 核武器模拟、航空航天设计、人类基因研究、生物科学研究等均需要高性能的并行计算 机系统。 美国能源部(DOE)的加速战略计算创新(ASCI )计划是一个很好的例证。该计划是 在全面禁止核试验的情况下,美国为了保持它的核威慑能力和核垄断地位而提出的一项 “先进战略计算创新”计划。通过ASCI计划,美国用计算的方法代替核试验的方法,以 数字方程和三维建模仿真核武器爆炸的效果,确保现有库存核武器的性能、安全和可靠 性,并希望使库存核武器的寿命远远超过它们的设计寿命。ASCI计划共投资10亿美元, 先后研制5台1-100Tflop/s的高性能计算机,第一台是1996年宣布的ASCI Red ,1.8Tflop/s, 1999年升级至3.2Tflop/s 。1999年还完成了2 台3Tflop/s的机器,一台为IBM公司研制的 Blue Pacific机,另一台为SGI公司研制的Blue Mountain机。2000年IBM公司完成了 12Tflop/s的ASCI white机,2003年IBM和Compaq公司完成了30Tflop/s的机器,2004年 100Tflop/s机问世,2005年IBM公司1Pflop/s的Blue Gene专用机也研制成功。为了解决 10-100Tflop/s的关键技术,DOE推出了ASCI 的一个补充计划,即Path-forward计划,该 计划拟解决4项关键技术,即:可扩展互连技术;分布并行操作系统;并行程序调试和 [27] 性能监测环境;大容量数据存储技术 。 与此同时,美国国防部(DOD)提出的“高性能计算现代化计划(HPCMP)”, 旨在以 2 第一章 绪论 高性能计算为手段将最新的科学技术尽快用于提高武器性能、提高战斗能力和防卫系统 的水平。计划分l0个领域,如计算流体动力学,计算化学和材料科学、大气海洋建模和 模拟等,都需要极高性能的计算机[40]。 现在流行的三维地震勘探虽能提供比二维勘探更精确的地下地质图像,但是,一些 最先进的三维资料处理方法却是今天一般计算机难以实现的。例如三维叠前深度偏移方 法,即使用每秒 10 亿次浮点运算的巨型机,也需要计算几百天,大型科学计算对于计 算能力的要求与日俱增。如果说飞机和航天飞行器的整机计算、流体动力学的数值模拟 所需要的计算量,已经超出当前最快计算机的计算能力,那么量子力学与量子化学中对 微观世界的模拟所需的计算量更要高几个数量级,又例如,模拟电子结构,要计算上千 个变量的积分-微分方程和成百万个多重积分,还要寻找阶数高达104-107矩阵的部分特 征向量,其运算量之大可想而知,我国的物理、化学与数学等领域的科研人员已经把这 方面的计算提到了议事日程并取得了一定的研究成果[40]。 再以气象部门为例,计算机在当今气象预报中已占有举足轻重的地位,国际上已将 每秒数十亿次运算的计算机应用于气象预报;但仍在寻找速度更快、容量更大、性能价 格比更好的并行计算机。要提高全球气象预报的准确性,据估计在经度、纬度及大气层 方向至少要取网格点200×100×20=40万个,如目前中期天气预报有的模式需要635万个 点,内存需几十个GB,总运算量为25Tera ,并要求在不到2小时内完成48小时的天气预 报。当计算机能力不足时只能降低结果的分辩率,简化计算方案,这样就影响了预报的 准确率,特别是对灾害性天气预报的准确率[40]。 由此可见,高速并行计算的应用非常广泛,但归纳起来主要有三种类型的应用需求: 计算密集(Compute-Intensive )型应用,如大型科学工程计算与数值模拟等;数据密集 (Data-Intensive )型应用,如数字图书馆、数据仓库、数据挖掘和计算可视化等;网络 密集(Network-Intensive )型应用,如协同工作、遥感和远程医疗诊断等。也正是这种 广泛性的重大应用推动着计算机并行技术的发展,其典型应用的第二项实际就包含着高 速实时图像处理的应用[59]。 图像并行处理的许多基础概念来自计算机并行处理的概念。无容置疑,计算机的许 多并行处理方法也适用于图像的并行处理,因此,计算机并行架构的重大发展直接影响 着图像处理技术的发展。 图像并行处理技术具有很强的理论性和实践性,它在很大程度上依赖于计算机并行 3 实时图像处理中嵌入式硬件并行结构的研究 处理技术的发展,同时又具有自己的独特性。因此,图像并行处理技术的应用是多方面 的,根据其应用领域和发展阶段的不同,可以从硬件体系上大致分成两个主流方向,一 个是基于通用计算机或工作站的可扩展并行计算机系统结构,一个是基于专用数字信号 处理器DSP或可编程器件FPGA 的嵌入式并行处理系统结构。 1.2.1 可扩展并行计算机系统[5-10,40,48-53] 并行计算机技术从20世纪70年代开始,经过80年代的蓬勃发展和百家争鸣,直至90 年代的多种结构相互融合而趋于统一,2000年代在多核心CPU技术的引导下使其在更高 细粒度的并行上有了新的发展潜力。经过40余年的飞速发展,并行计算机技术对推动高 性能计算机在多个领域的应用具有不可磨灭的贡献。 1952年至1964年,运算、操作功能实现并行处理,但这基本上是在一台计算机内部 实现的并行处理。并行性发展主要在算术运算的位并行以及运算器和输入输出操作的并 行。 60年代后期到70年代末,SIMD阵列机出现,突破了传统计算机的串行处理设计方 法,计算机系统结构和软件都有了迅速发展,并行性得到进一步开发,并行处理技术向 多机系统发展。1972年出现了世界上第一台并行计算机ILLIACIV,1976年Cray公司研 制成功了第一台实用的向量巨型机Cray-I,随后又推出了四个向量处理机共享主存的 Cray-MP,成为世界上第一台成功的适度并行计算机。 80年代早期,以MIMD并行机的研制为主,首先诞生的是Denelcor HEP ,到了80年 代中期,共享存储多处理机系统得到了稳定的发展。大规模并行处理(MPP)系统形成了 单独门类并实现了万亿次运算速度,使得并行处理技术逐渐成熟,产生了新一代的分布 式主存大规模并行机。 90年代期间,微电子技术迅速发展,基于RISC指令系统的微处理芯片的性能几乎 以每年增长1倍、内存容量每年增长3-4倍的速度发展。在分步主存并行机很快发展的同 时,共享主存并行机的性能也不断提升,特别是多CPU服务器和工作站的推广应用增强 了共享主存并行处理技术的生命力。 进入2000年以来,双核心CPU从初现端倪到广泛应用,并行处理技术已经从多处理 芯片的硬件级或系统级并行结构发展到芯片内部的并行结构,计算机的通用软件环境也 正在完成从模拟双核的超线程技术到真正的多核并行技术的转移。随着VLSI技术的发 展,Intel 、AMD等公司在已经公布的下一年度计划中准备推出四核心CPU,可以预见, 4 第一章 绪论 在不远的将来,由多核心CPU构造的并行系统硬件结构所带来的更加密集的细粒度,将 使得它在并行操作系统的支持下给计算机并行处理能力带来巨大的飞跃。 计算机并行处理技术的高速发展以及当今几乎所有学科均趋向定量化和精确化的 要求,使得计算科学与传统的理论科学、实验科学并列成为第三门学科,这也促使高速 并行计算机硬件系统结构的研究和发展更趋理论化、系统化。 大型并行机系统一般可分为六类:单指令多数据流机SIMD(Single Instruction Multiple Data) ;并行向量处理机PVP(Parallel Vector Processor) ;对称多处理机SMP (Symmetric Multiprocessor);大规模并行处理机MPP(Massively Parallel Processor) ;工作 站机群COW (Cluster of Workstations )和分布共享存储DSM(Distributed Shared Memory) 多处理机。SIMD计算机多为专用,其余的5种均属于多指令多数据流MIMD(Multiple Instruction Multiple Data)计算机。现在,MPP和COW之间的界线越来越模糊。例如,IBM SP2虽被看作MPP机。但它却有一个机群结构。机群相对于MPP有性能/价格比高的优势, 所以在发展可扩放并行计算机方面呼声很高。DSM是SMP和MPP 的自然结合,MPP和 COW的界线逐渐不清,最终,SMP、MPP 、DSM和COW等并行结构渐趋一致,形成当 [58] 代并行机的公用结构 。 2000年前后,MPP正成为世界各国的研究热点,随着其并行硬件结构的不断发展, 各种新技术也层出不穷,如虫孔寻径技术、微内核操作系统、并行编译等,MPP也成为 当时高性能计算机的主流产品,在2000年公布的TOP500 中,前10台均为MPP 。 然而创新是人类文明进步的灵魂,高性能计算领域的技术创新和性能提升的脚步也 同样从未停止过,目前机群系统(Cluster )已经在TOP500排行榜占据了垄断地位。正 如几年前所预测的那样,第一台达到百万亿次以上实测性能的超级计算机(136.8Tflops 的蓝色基因/L系统)于2005年正式登场,现在只有Linpack测试性能超过2Tflops 的系统 才能进入TOP500 。2006年11月排行榜中最后一位系统的Linpack性能为2.026Tflops ,两 倍于1993年第一次排行榜中所有500台系统的集合能力;这次前10位系统的Linpack性能 全部超过了30Tflops,排在第10位的NEC地位模拟器系统达到35.86Tflops ;而进入前100 位的系统性能也从一年前的3.412Tflops提升到4.713Tflops 。目前TOP500 中所有系统的 总Linpack性能达到2.79Pflops ,一年前为1.69Pflops,是5年前(2001年6月)的25.76倍 之多! 5 实时图像处理中嵌入式硬件并行结构的研究 表1.1 高性能计算机在TOP500 中的2000年和2006年的机器性能对比[7] 峰值速度 LINPACK速度 处理机 型号 公司 国家 年度 (Rmax ) (Rpeak ) 数量 /Gflop.s-1 /Gflop.s-1 2000年11月公布 ASCI White IBM U.S.A 2000 8192 12288 4938 ASCI Red Intel U.S.A 1999 9632 3207 2379.6 ASCI Blue IBM U.S.A 1999 5808 3868 2144 Pacific ASCI Blue SGI U.S.A 1998 6144 3072 1608 Mountain SP/Power 3 IBM U.S.A 2000 1336 2004 1417 2006年11月公布 BlueGene/L(IB IBM U.S.A 2005 131072 280600 367000 M BlueGene/L) Red Storm(Cray Cray U.S.A 2006 26544 101400 127411 XT3) (dual core) Blue Gene IBM U.S.A 2005 40960 91290 114688 Watson (BlueGene/L) ASC IBM U.S.A 2006 12208 75760 92781 Purple(IBM pSeries) MareNostrum(I IBM U.S.A 2006 10240 62630 94208 BM Cluster) 1)Rmax——Nmax 所达到的最大flop (理论峰值)。 2 )Rpeak——flop的理论峰值,如IBM Blue Gene/L 的峰值为367tflop (万亿flop )。 现在基于计算机系统的并行处理系统正在越来越多地使用先构成局部群组的紧耦 合多处理系统,然后再通过某种拓扑网络结构实现松散耦合这一方式,如德国 Parsyteeh 6 第一章 绪论 公司的C-C系列并行处理系统,用l6个Tg000通过交叉开关网络构成群组,再以群组为单 位构成立方体结构。这种方式的优点是减少了整个网络的平均路径,从而减少了处理器 之间的通讯开销;又在局部大大增强了处理的密度,达到了提高计算能力的目的。这是 我们在嵌入式并行结构的研究上值得关注的动态,也为更大规模地在嵌入式系统中扩展 并行结构提供了有益的指导作用。 综上所述,高性能计算机系统都是并行机,其系统并行结构一般都是以商用PC 、 服务器、工作站为依托,可以不必重新研制计算机节点,只需构建合理的互连网络拓朴 分布和存储器的层次结构,尽力避免存贮器瓶颈和通信开销,以求得更佳的处理能力, 从理论上说,只要有足够的资源就可以搭建足够大的并行系统,但其发展的平衡点在于 对处理能力和系统成本的用户接受力上。 1.2.2 嵌入式并行处理系统[2-4,30-46,57-59] 虽然可扩展并行计算机系统结构带来了高性能计算机系统的飞速发展,其计算能力 的巨大提升也符合实时图像处理的发展趋势,但嵌入式并行处理系统的却以其自身独有 的优势迅速崛起,在光电成像跟踪等智能化装备领域呈现出巨大的发展潜力。 1.用于军事实战或商业工程设备时,以并行计算机系统构建图像处理单元,虽然不必 重新研制计算机节点、有通用的操作系统且易于扩展,但依靠计算机搭建的多个节点体 积过于庞大,不但给系统集成造成难度,而且设备成本、功耗、可靠性、机动性都面临 实际困难;嵌入式系统可以依靠专用DSP和FPGA在板级完成复杂的紧耦合并行结构, 通过合理的板级间高速总线也很容易实现系统的扩展,其体积和系统功耗大大缩小,易 于集成进系统整体结构中,针对实际工程的设备而言有很大的使用价值。 2 .用计算机系统做图像处理,可以凭借机群系统达到很高的处理能力,但也面临着一 个很棘手的问题,那就是图像传感器(如CCD等)的探测数据通过图像采集卡转移到计 算机内部时会遇到总线带宽瓶颈,这在当前计算机系统中是不可避免。相反,对嵌入式 并行系统而言,在面对高帧频、大面阵的CCD数据输入时,可以充分利用DSP 的各种高 速输入接口和依托FPGA搭成灵活的开关结构、网络拓扑和存储器模型,来处理有严格 时间限制的数据收发应用,实现当帧视频实时处理;同时针对不同的具体应用,实时性 的要求也有不同,嵌入式系统还可通过软硬件结构的重配置和可裁减性,对功能、可靠 性、成本、体积、功耗进行严格约束,非常利于工程设备的便携式使用。 3 .用计算机系统做图像处理,使用通用的操作系统(例如 Windows 、Solaris、Linux ), 7 实时图像处理中嵌入式硬件并行结构的研究 这些操作系统功能强大,结构复杂,易于软件的二次开发,实用性强,并且提供编程人 员熟悉的标准 API ,也支持一些实时软件的开发,然而在处理事件时其响应的实时性 尚显不足。在图像实时处理中,一旦发生错过事件处理截止期(deadline )的情况,就 意味着目标的丢失和系统的崩溃。此外,由于受到商家的严格控制,也大大限制了二次 开发的裁剪深度。嵌入式系统具备高可靠性、满足应用需求的可剪裁性以及比通用操作 系统要求更高的实时性,其软件设计的模块化、可伸缩性、实时性都较好,通信能力强 大,支持多种CPU 。专门为实时嵌入式应用而设计的抢先式多任务操作系统,可以将其 内核固化到 ROM 中运行,对 RAM 的要求不高。同时,嵌入式系统是软件和硬件一 体化的系统,其追求的软硬件协同设计方法,可以利用软硬件的功能划分理论 (Functional Partition Theory)和设计空间搜索技术,使系统设计过程不再过分依赖设计人 员的个人经验,当系统规模和复杂度的不断增加时,非常利于系统软硬件结构的权衡、 互补和事后协调,极大地降低了设计风险。 高性能计算机在各国政府大力支持下的迅速发展,充分展现着一个国家科技、经济 和国防的综合实力,与此同时其对并行处理架构的研究也完全符合嵌入式并行处理系统 的需求,并且还起着相当实用的指导作用。当前VLSI技术以其惊人的发展速度和在工 程实现上的日趋成熟,已经使得嵌入式并行处理技术可以在一个已有的高水平的起点上 展开,这就为其发展提供了有利的硬件技术保障和巨大的应用空间。存储器多模块交叉 访问、全面流水线化、多个可并行运算的部件、超高速缓存、有效的拓扑结构和多处理 器系统等都是行之有效的结构,这些结构在大规模嵌入式并行处理系统中已经得到广泛 应用。随之而来,是大量的优秀图像处理算法成果可以从事后处理转移到视频实时,通 过合理的算法分割之后在硬件平台上的并行或并发处理,无论这种分割是从流水方式上 还是从分块方式上进行,软硬件协同设计的相互支持都已经使得实时图像处理能力有了 极大的提高。 由于嵌入式系统面向特定应用的特点,处理器的不同、任务的不同会造成其具体结 构千差万别,系统性能高低不一。但嵌入式的核心理念就是把计算机系统嵌入到特定应 用对象体系中,实现智能化控制,所以特点也很鲜明: 1. 良好的模块化结构。嵌入式系统是资源开销小的高性价比系统,其电路具有典型性、 通用性和系列性,可以做到不改或者很少的改动就运用到类似的产品中。嵌入式硬件系 统的良好模块化结构,利于量体裁衣、去除冗余,某些通用模块的局部电路更可以做到 8 第一章 绪论 “典型”,直接复制到其它用到该模块的产品中,这样就能够以最小的代价实现更高的 性能,最大程度地满足应用的需求。 2 . 软硬件协同设计可以降低设计风险,提高实时性。一个高效的嵌入式并行处理系统 应该是处理器性能、并行系统结构、并行软件和并行算法三者的结合,因此在设计之初 对系统性能的评价,对算法采取的每一步动作都是具有启发意义的。所以软硬件性能的 准确估计是我们算法有效的前提,只有使体系结构和图象处理算法很好匹配才能达到最 大限度的并行。软件和硬件的主要不同之一在于,硬件设计中,并行是便宜的,串行是 昂贵的,软件则相反。嵌入式系统的软硬件协同设计方法在并行处理系统设计上具备很 大的优势,可以充分利用软件和硬件的各自优势,相互支持、相互补充,降低设计的风 险性和提高系统的实时性。 3 . 多种总线结构和存储接口的并存。越来越多的研究工作者更多的意识到数据结构在 并行处理中的重要作用,并认识到“并行处理,既要面向高速计算,又要面向吞吐量; 既要研究处理器结构,又要研究适合并行处理的存储结构,由此达到高度的数据并行、 处理并行。” [61]面对着邻域图像帧存所能提供的并行的、巨大的且高速的邻域图像数 据,如何及时且灵活地给予处理?显然传统计算机结构面临着极大的挑战。而嵌入式系 统快速发展带来了专用处理器接口的极大丰富,使得多种专用或通用总线结构可以在一 个系统同时并存,满足高速带宽要求的各种存储单元可以实现合理的存储结构,获得数 据并行、处理器耦合的性能需求。 4 .专用处理器DSP和FPGA作协处理器的高速软硬件并行结构已经成为嵌入式并行设 计的通用结构。专用DSP 的哈佛结构用于高速数字信号处理有不争的优势,高时钟工作 频率、多总线结构、深流水操作、超长指令结构等特性都非常适合并行处理算法的实现, 通用的编程能力、高效的编译优化效率为系统的实现带来了很大的灵活性。与此同时, FPGA通过向高速、高密度的百万门平台级系统的发展,以其极高的逻辑密度、具有成 本优势的高性能互连和I/O资源、针对实时信号处理的XtremeDSP硬件逻辑块、灵活的 嵌入式软硬核处理器和IP定制设计能力,为同时确保灵活性和高性能提供了最佳的解决 方案;另一方面还避免了舍此取彼的开发压力,在复杂的嵌入式并行系统设计中作为专 用DSP 的协处理减负引擎,为高性能、高带宽的实时图像处理提供了更加强大的并行硬 件结构支撑。 由于应用场景的过分分散,对嵌入式并行结构进行分类有一定的难度,不过其明 9 实时图像处理中嵌入式硬件并行结构的研究 显的发展趋势和共同特点都是基于多处理器的MIMD结构。因此,基于处理器之间的耦 合方式来进行划分在一定程度上可能比较恰当。目前大多数的嵌入式并行应用分为两 类:基于共享存储的紧耦合方式和基于分布式存储的松耦合方式。 紧耦合方式下,将若干个高性能处理器通过总线、纵横开关网络或多级互连网络 与公共存贮器模块相连,处理器之间的通讯由公共存贮器中的共享变量实现;每一个处 理器还可以拥有它自己存储容量较小的本地存储器或高速缓冲器。在总线互连方式中, 虽然从一个处理器到另一个处理器的数据通信率和存储器带宽是同一数量级,但存贮器 和总线会成为系统中的一个瓶颈。因为共享存储在结构上难以实现多个处理结点的同时 访问,当处理器数目增加时,每个处理器分得的共享存储带宽会急剧下降。同时,由于 共享存储器带来的Cache一致性问题会更加突出,为了解决Cache一致性问题需要在硬件 结构中增加管理机制或通过软件进行协调,而这些都会在相当程度上降低系统的效能或 增加硬件复杂度。当处理器数目较多时,交叉开关网络的构造成本偏高,硬件实现难度 也较大;多级互连网络明显存在竞争问题,竞争程度随网络级数的增多而加剧。总之 MIMD并行机及相应的并行算法的研究尚处于发展完善阶段,优势和问题并存。 松散耦合系统中,每个处理器自身都配有大容量局部存贮器,作为独立的处理结 点其处理能力已得到很大提高;由于没有共享的存储器,各处理器之间的数据交换是通 过互连网络来实现的,其拓扑结构又可进一步划分为线型、环形、树状、星型、网孔、 超立方体和可重组结构等多种类型。 现在广泛用于实时图像处理上的高端信号处理器主要集中在TI公司的C6XXX系 列、ADI公司的TigerSHARC系列、Motorola公司的高性能PowerPC处理器系列等。TI不 断追求CPU核的高速处理能力,从其接近1GHz的工作时钟就能表现出来,扩展存储接 口(EMIF )可一SDRAM或DDR SDRAM等高速存储器进行无缝对接,其所提供的高速 输入输出带宽也非常适合以行列排布的图像数据处理,但对建立在HPI或McBSP接口上 的多个DSP通信开销上却有较大的限制;ADI公司的DSP在工作时钟上虽然稍有欠缺, 但所提供的DSP之间的高带宽通信却使其在图像并行处理能力上表现出自身的优势; Motorola公司的PowerPC进入图像实时处理领域是近几年的事情,却一直致力于在可控 功耗下不断提升处理器的性能和时钟速度,使其表现出强劲的势头,面向网络、通讯等 领域的意图所带来的丰富接口资源更使其在并行处理上尽显优势。 2003年10月,Radstone公司公布的G4DSP-X DSP板PPC7A系列是Motorola 的高端

本文链接:http://jomsell.com/duojizhongduan/239.html