什么是超标量??-百问十二

什么是超标量??

的有关信息介绍如下：

什么是超标量??

在一颗处理器实行指令级并行运算。

超标量（superscalar）CPU架构是指在一颗处理器内核中实行了指令级并行的一类并行运算。这种技术能够在相同的CPU主频下实现更高的CPU吞吐率（throughput）。

就是指在同一时间内能执行两条或两条以上的指令就是超标量

CPU的性能指标

(1) CPU的时钟频率称为主频, 主频越高, 则计算机工作速度越快; 主板的频率称为外频; 主频与外频的关系为:

(2) 内部缓存(cache), 也叫一级缓存(L1 cache). 这种存储器由SRAM制作, 封装于CPU内部, 存取速度与CPU主频相同. 内部缓存容量越大, 则整机工作速度也越快. 一般容量为KB.

主频=外频×倍频数

(3) 二级缓存(L2 cache). 集成于CPU外部的高速缓存, 存取速度与CPU主频相同或与主板频率相同. 容量一般为KB～MB.

(4) MMX(Multi-Media extension)指令技术. 增加了多媒体扩展指令集的CPU, 对多媒体信息的处理能力可以提高60%左右.

(5) 3D指令技术. 增加了3D扩展指令集的CPU, 可大幅度提高对三维图象的处理速度.

----------------------------------

CPU的英文全称是Central Processing Unit，即中央处理器。CPU从雏形出现到发展壮大的今天，由于制造技术的越来越先进，其集成度越来越高，内部的晶体管数达到几百万个。虽然从最初的CPU发展到现在其晶体管数增加了几十倍，但是CPU的内部结构仍然可分为控制单元，逻辑单元和存储单元三大部分。CPU的性能大致上反映出了它所配置的那部微机的性能，因此CPU的性能指标十分重要。 CPU主要的性能指标有以下几点：

第一：主频，也就是CPU的时钟频率，简单地说也就是CPU的工作频率。一般说来，一个时钟周期完成的指令数是固定的，所以主频越高，CPU的速度也就越快了。不过由于各种CPU的内部结构也不尽相同，所以并不能完全用主频来概括CPU的性能。至于外频就是系统总线的工作频率；而倍频则是指CPU外频与主频相差的倍数。用公式表示就是：主频=外频×倍频。我们通常说的赛扬433、PIII 550都是指CPU的主频而言的。

第二：内存总线速度或者叫系统总路线速度，一般等同于CPU的外频。内存总线的速度对整个系统性能来说很重要，由于内存速度的发展滞后于CPU的发展速度，为了缓解内存带来的瓶颈，所以出现了二级缓存，来协调两者之间的差异，而内存总线速度就是指CPU与二级(L2)高速缓存和内存之间的工作频率。

第三：工作电压。工作电压指的也就是CPU正常工作所需的电压。早期CPU（386、486）由于工艺落后，它们的工作电压一般为5V，发展到奔腾586时，已经是3.5V/3.3V/2.8V了，随着CPU的制造工艺与主频的提高，CPU的工作电压有逐步下降的趋势，Intel最新出品的Coppermine已经采用1.6V的工作电压了。低电压能解决耗电过大和发热过高的问题，这对于笔记本电脑尤其重要。

第四：协处理器或者叫数学协处理器。在486以前的CPU里面，是没有内置协处理器的。由于协处理器主要的功能就是负责浮点运算，因此386、286、8088等等微机CPU的浮点运算性能都相当落后，自从486以后，CPU一般都内置了协处理器，协处理器的功能也不再局限于增强浮点运算。现在CPU的浮点单元（协处理器）往往对多媒体指令进行了优化。比如Intel的MMX技术，MMX是“多媒体扩展指令集”的缩写。MMX是Intel公司在1996年为增强Pentium CPU在音像、图形和通信应用方面而采取的新技术。为CPU新增加57条MMX指令，把处理多媒体的能力提高了60％左右。

第五：流水线技术、超标量。流水线(pipeline)是 Intel首次在486芯片中开始使用的。流水线的工作方式就象工业生产上的装配流水线。在CPU中由5~6个不同功能的电路单元组成一条指令处理流水线，然后将一条X86指令分成5~6步后再由这些电路单元分别执行，这样就能实现在一个CPU时钟周期完成一条指令，因此提高了CPU的运算速度。超流水线是指某型 CPU内部的流水线超过通常的5~6步以上，例如Pentium pro的流水线就长达14步。将流水线设计的步(级)数越多，其完成一条指令的速度越快，因此才能适应工作主频更高的CPU。超标量是指在一个时钟周期内CPU可以执行一条以上的指令。这在486或者以前的CPU上是很难想象的，只有Pentium级以上CPU才具有这种超标量结构；这是因为现代的CPU越来越多的采用了RISC技术，所以才会超标量的CPU。

第六：乱序执行和分枝预测，乱序执行是指CPU采用了允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理的技术。分枝是指程序运行时需要改变的节点。分枝有无条件分枝和有条件分枝，其中无条件分枝只需要CPU按指令顺序执行，而条件分枝则必须根据处理结果再决定程序运行方向是否改变，因此需要“分枝预测”技术处理的是条件分枝。

第七：L1高速缓存，也就是我们经常说的一级高速缓存。在CPU里面内置了高速缓存可以提高CPU的运行效率。内置的L1高速缓存的容量和结构对CPU的性能影响较大，不过高速缓冲存储器均由静态RAM组成，结构较复杂，在CPU管芯面积不能太大的情况下，L1级高速缓存的容量不可能做得太大。采用回写(Write Back)结构的高速缓存。它对读和写操作均有可提供缓存。而采用写通(Write-through)结构的高速缓存，仅对读操作有效。在486以上的计算机中基本采用了回写式高速缓存。

第八：L2高速缓存，指CPU外部的高速缓存。Pentium Pro处理器的L2和CPU运行在相同频率下的，但成本昂贵，所以Pentium II运行在相当于CPU频率一半下的，容量为512K。为降低成本Intel公司曾生产了一种不带L2的CPU名为赛扬。

第九：制造工艺， Pentium CPU的制造工艺是0.35微米， PII和赛扬可以达到0.25微米，最新的CPU制造工艺可以达到0.18微米，并且将采用铜配线技术，可以极大地提高CPU的集成度和工作频率。

六.多媒体指令集

CPU依靠指令来计算和控制系统，每款CPU在设计时就规定了一系列与其硬件电路相配合的指令系统。指令的强弱也是CPU的重要指标，指令集是提高微处理器效率的最有效工具之一。从现阶段的主流体系结构讲，指令集可分为复杂指令集和精简指令集两部分，而从具体运用看，如Intel的MMX（Multi Media Extended）、SSE、 SSE2（Streaming-Single instruction multiple data-Extensions 2）和AMD的3DNow!等都是CPU的扩展指令集，分别增强了CPU的多媒体、图形图象和Internet等的处理能力。我们通常会把CPU的扩展指令集称为"CPU的指令集"。

1、精简指令集的运用

在最初发明计算机的数十年里，随着计算机功能日趋增大，性能日趋变强，内部元器件也越来越多，指令集日趋复杂，过于冗杂的指令严重的影响了计算机的工作效率。后来经过研究发现，在计算机中，80％程序只用到了20％的指令集，基于这一发现，RISC精简指令集被提了出来，这是计算机系统架构的一次深刻革命。RISC体系结构的基本思路是：抓住CISC指令系统指令种类太多、指令格式不规范、寻址方式太多的缺点，通过减少指令种类、规范指令格式和简化寻址方式，方便处理器内部的并行处理，提高VLSI器件的使用效率，从而大幅度地提高处理器的性能。

RISC指令集有许多特征，其中最重要的有：

指令种类少，指令格式规范：RISC指令集通常只使用一种或少数几种格式。指令长度单一（一般4个字节），并且在字边界上对齐，字段位置、特别是操作码的位置是固定的。

寻址方式简化：几乎所有指令都使用寄存器寻址方式，寻址方式总数一般不超过5个。其他更为复杂的寻址方式，如间接寻址等则由软件利用简单的寻址方式来合成。

大量利用寄存器间操作：RISC指令集中大多数操作都是寄存器到寄存器操作，只以简单的Load和Store操作访问内存。因此，每条指令中访问的内存地址不会超过1个，访问内存的操作不会与算术操作混在一起。

简化处理器结构：使用RISC指令集，可以大大简化处理器的控制器和其他功能单元的设计，不必使用大量专用寄存器，特别是允许以硬件线路来实现指令操作，而不必像CISC处理器那样使用微程序来实现指令操作。因此RISC处理器不必像CISC处理器那样设置微程序控制存储器，就能够快速地直接执行指令。

便于使用VLSI技术：随着LSI和VLSI技术的发展，整个处理器（甚至多个处理器）都可以放在一个芯片上。RISC体系结构可以给设计单芯片处理器带来很多好处，有利于提高性能，简化VLSI芯片的设计和实现。基于VLSI技术，制造RISC处理器要比CISC处理器工作量小得多，成本也低得多。

加强了处理器并行能力：RISC指令集能够非常有效地适合于采用流水线、超流水线和超标量技术，从而实现指令级并行操作，提高处理器的性能。目前常用的处理器内部并行操作技术基本上是基于RISC体系结构发展和走向成熟的。

正由于RISC体系所具有的优势，它在高端系统得到了广泛的应用，而CISC体系则在桌面系统中占据统治地位。而在如今，在桌面领域，RISC也不断渗透，预计未来，RISC将要一统江湖。

2、CPU的扩展指令集

对于CPU来说，在基本功能方面，它们的差别并不太大，基本的指令集也都差不多，但是许多厂家为了提升某一方面性能，又开发了扩展指令集，扩展指令集定义了新的数据和指令，能够大大提高某方面数据处理能力，但必需要有软件支持。

MMX 指令集

MMX（Multi Media eXtension，多媒体扩展指令集）指令集是Intel公司于1996年推出的一项多媒体指令增强技术。MMX指令集中包括有57条多媒体指令，通过这些指令可以一次处理多个数据，在处理结果超过实际处理能力的时候也能进行正常处理，这样在软件的配合下，就可以得到更高的性能。MMX的益处在于，当时存在的操作系统不必为此而做出任何修改便可以轻松地执行MMX程序。但是，问题也比较明显，那就是MMX指令集与x87浮点运算指令不能够同时执行，必须做密集式的交错切换才可以正常执行，这种情况就势必造成整个系统运行质量的下降。

SSE指令集

SSE（Streaming SIMD Extensions，单指令多数据流扩展）指令集是Intel在Pentium III处理器中率先推出的。其实，早在PIII正式推出之前，Intel公司就曾经通过各种渠道公布过所谓的KNI（Katmai New Instruction）指令集，这个指令集也就是SSE指令集的前身，并一度被很多传媒称之为MMX指令集的下一个版本，即MMX2指令集。究其背景，原来"KNI"指令集是Intel公司最早为其下一代芯片命名的指令集名称，而所谓的"MMX2"则完全是硬件评论家们和媒体凭感觉和印象对"KNI"的评价，Intel公司从未正式发布过关于MMX2的消息。

而最终推出的SSE指令集也就是所谓胜出的"互联网SSE"指令集。SSE指令集包括了70条指令，其中包含提高3D图形运算效率的50条SIMD（单指令多数据技术）浮点运算指令、12条MMX 整数运算增强指令、8条优化内存中连续数据块传输指令。理论上这些指令对目前流行的图像处理、浮点运算、3D运算、视频处理、音频处理等诸多多媒体应用起到全面强化的作用。SSE指令与3DNow!指令彼此互不兼容，但SSE包含了3DNow!技术的绝大部分功能，只是实现的方法不同。SSE兼容MMX指令，它可以通过SIMD和单时钟周期并行处理多个浮点数据来有效地提高浮点运算速度。

在后来Intel为了应对AMD的3Dnow!指令集，又在SSE的基础上开发了SSE2，增加了一些指令，使得其P4处理器性能有大幅度提高。到P4设计结束为止，Intel增加了一套包括144条新建指令的SSE2指令集。像最早的SIMD扩展指令集，SSE2涉及了多重的数据目标上立刻执行一单个的指令（即SIMD，一个计算低工控最好的方法是让每指令执行更多的工作）。最重要的是SSE2能处理128位和两倍精密浮点数学运算。处理更精确浮点数的能力使SSE2成为加速多媒体程序、3D处理工程以及工作站类型任务的基础配置。但重要的是软件是否能适当的优化利用它。

3D Now!(3D no waiting)指令集

3DNow！是AMD公司开发的SIMD指令集，可以增强浮点和多媒体运算的速度，并被AMD广泛应用于其K6-2 、K6-3以及Athlon（K7）处理器上。3DNow!指令集技术其实就是21条机器码的扩展指令集。

与Intel公司的MMX技术侧重于整数运算有所不同，3DNow!指令集主要针对三维建模、坐标变换和效果渲染等三维应用场合，在软件的配合下，可以大幅度提高3D处理性能。后来在Athlon上开发了Enhanced 3DNow!。这些AMD标准的SIMD指令和Intel的SSE具有相同效能。因为受到Intel在商业上以及Pentium III成功的影响，软件在支持SSE上比起3DNow!更为普遍。Enhanced 3DNow!AMD公司继续增加至52个指令，包含了一些SSE码，因而在针对SSE做最佳化的软件中能获得更好的效能。

1) CPU的时钟频率称为主频, 主频越高, 则计算机工作速度越快; 主板的频率称为外频; 主频与外频的关系为:

主频=外频×倍频数

(3) 二级缓存(L2 cache). 集成于CPU外部的高速缓存, 存取速度与CPU主频相同或与主板频率相同. 容量一般为KB～MB.

(4) MMX(Multi-Media extension)指令技术. 增加了多媒体扩展指令集的CPU, 对多媒体信息的处理能力可以提高60%左右.

(5) 3D指令技术. 增加了3D扩展指令集的CPU, 可大幅度提高对三维图象的处理速度.

奔腾芯片制造生产采用地流水线技术有超流水线与超标量两种：

1.超流水线

流水线是Intel首次在486芯片中开始使用的。流水线的工作方式就象工业生产上的装配流水线。在CPU中由5—6个不同功能的电路单元组成一条指令处理流水线，然后将一条X86指令分成5—6步后再由这些电路单元分别执行，这样就能实现在一个CPU时钟周期完成一条指令，因此提高CPU的运算速度。经典奔腾每条整数流水线都分为四级流水，即指令预取、译码、执行、写回结果，浮点流水又分为八级流水。

2.超标量

超标量是通过内置多条流水线来同时执行多个处理器，其实质是以空间换取时间。而超流水线是通过细化流水、提高主频，使得在一个机器周期内完成一个甚至多个操作，其实质是以时间换取空间。例如Pentium 4的流水线就长达20级。将流水线设计的步(级)越长，其完成一条指令的速度越快，因此才能适应工作主频更高的CPU。但是流水线过长也带来了一定副作用，很可能会出现主频较高的CPU实际运算速度较低的现象，Intel的奔腾4就出现了这种情况，虽然它的主频可以高达1.4G以上，但其运算性能却远远比不上AMD 1.2G的速龙甚至奔腾III。