高性能多核處理器申威1600.pdf

電腦雜談  發布時間:2019-07-04 04:18:20  來源:網絡整理

高性能計算機與多cpu_cpu性能排行_cpu性能

iphone x搭載了蘋果全新設計的a11處理器,并嵌入內置的神經引擎,其比a10的高性能大核提升了25%的性能,比低能耗小核提升了70%的性能,并搭載第二代蘋果性能控制器,使得多線程處理性能提升70%,同時,圖形性能在比a10提升30%的情況下功耗降低了一半。amd的雙核cpu跟現有單核cpu接口規格(管腳數)、功耗一樣,因此從單核換成雙核,不需要更換芯片組、主板、電源,只需要升級bios軟件、拔下單核處理器插上雙核處理器就行了,芯片組、主板、電源廠商不用投入新的研發成本,價格會按半導體市場的規律自然降低,用戶現有的設備也可以通過升級cpu提升性能。優點7850k在amd的apu系列中屬于旗艦產品了,如果你不需配獨顯,(因為有些人不需要獨顯,比如只是看看電影,玩玩普通網游)可以說這款cpu就太適合你了,有人提出amd四核+入門獨顯和intel+核顯兩種方案,而為什么我說選7850k這是最佳方案高性能計算機與多cpu,理由如下:第一種四核加入門獨顯方案性能肯定沒問題,但是這樣搭配的功耗將會顯著提高,而且機箱里多出一個獨顯顯卡風扇,噪音也會提高,所以兩者性能相差不大得情況下選誰應該很明了了,而后者intel方案性價比會下降,如果買個i3自帶hd4400,雖說一般應用對于gpu要求也能勝任,而且能耗很低,但hd4400和7850k的gpu那就落后不少了,因為我用的i5核顯和amd的集成gpu對比過,差距確實明顯,而且intel的i系列單cpu價格就快趕上7850k了再配入門獨顯顯然不經濟,所以,7850k集成了一個很強的gpu,甚至你可以通過提高內存頻率來提升顯卡性能,本身用了28nm工藝,發熱與功耗減少,因此從經濟角度和性能角度選amd是不錯的選擇。

高性能處理器的快速發展和廣泛應用, 使其成為信息領域的核心元器件, 也與信息安全密切相關。 因此, 發展國產高性能處理器, 掌握其核心技術, 既能促進信息產業發展, 也有利于維護國家信息安全。“十五” 期間, 在國家 “863” 高新技術發展計劃支持下, 國產高性能處理器研發實現零的突破, 研 制出 “龍芯” 、“眾志” 、“申威” 等國產高性能處理器 。 “十一五” 期間, 在國家 “核高基” 重大科技 專項支持下, 國產高性能處理器發展步伐加快, 實現從單核到多核的跨越, 申威1600 處理器正是在這 樣的大背景下完成研發, 并在 “863” 國產千萬億次超級計算機系統中全面應用, 實現了國產高性能計 算機研制的新突破。結構設計申威1600 處理器采用多核結構和片上系統 SoC(system on chip) 技術, 是國內首款 16 核高性能 通用處理器。申威1600 在單芯片中集成了 16 個對稱的 64 位通用處理器核心、4 路 128 位存儲控制 器和包括PCI-E(peripheral component interconnect express) 與以太網在內的標準I/O 接口, 并通過兩 級交叉開關實現片上互連。

圖1 為申威1600 的芯片結構, 圖2 為申威1600 的核心結構。申威1600 處 理器的主要特點如下: 引用格式 胡向東 楊劍新 朱英 高性能多核處理器申威 中國科學 信息科學胡向東等 高性能多核處理器申威1 Gbps8×5 Gbps25 Mbps圖 申威 處理器芯片The architecture of Shenwei-1600(1) 基于自主知識產權的 64 位 RISC 指令系統。 指令系統是處理器設計的基礎, 申威1600 基于 64 位 Load/Store 型 RISC 指令架構而自主開發的多核指令系統, 支持 8 位、16 位、32 位和 64 位整數運算, 支持單精度和雙精度浮點運算, 支持256 位單指令流多數據流 SIMD (single instruction multiple data) 整數和浮點向量運算, 指令系統擴展了訪存、整數運算和浮點運算等 SIMD 向量指令, 并支持不對界存儲訪問。(2) 分布共享存儲的多核結構。申威1600 采用分布共享存儲的對稱多核結構。 4 個核心和存儲控 制器通過一級交叉開關互連, 構成對稱共享存儲的核組; 4 個核組以及由 PCI-E 接口、以太網接口和 維護接口組成的系統接口, 通過二級交叉開關互連, 構成分布共享存儲的高性能處理器。

(3) 超級標量結構的處理器核。 申威1600 處理器核心為 2 譯碼 3 發射結構, 采用寄存器重命名、 亂序發射、亂序執行、轉移預測與推測執行等技術, 核心內設置兩級 Cache(高速緩沖存儲器), 一級 Cache 為指令與數據分離, 容量各為 32 KB, 二級 Cache 為指令和數據共享, 容量為 256 KB, 并支持 多核心的Cache 一致性。(4) 集成存儲器接口和I/O(Input/Output) 接口的SoC 芯片。申威1600 每個核組的存儲控制器連 接128 位寬的DDR3 SDRAM(double-data-rate 3 synchronous dynamic random access memory) 存儲器 接口, 支持216 GB 的DDR3 存儲器, 支持最高 1200 Mbps 的數據傳輸率, 支持糾單錯的ECC(error correcting code) 校驗。 芯片內集成的系統接口包括PCI-E 2。0 標準接口、10/100/1000 Mbps 的以太網 接口和提供復位與初始化控制以及調試與測試支持的維護接口。性能設計高性能是申威1600 處理器的主要開發目標。

受半導體工藝條件的限制, 國產高性能處理器難以采 用世界上最先進的集成電路工藝。 要實現高性能, 必須將性能設計作為主要設計內容 。申威1600中國科學 信息科學 第 卷 第 期Instruction cache (32 KB)4 InstructionsInstruction unit128 bit2 Instructions1 InstructionInteger Float-pointexecution unit/SIMDunitunit64 bit256 bitData cache controller256 bitData cache (32 KB)L2 cache128 bitcontroller128 bitL2 Cache (256 KB)128 bit圖申威 處理器核心The architecture of Shenwei-1600 processor core 處理器采用多層次并行技術提升性能, 采用多層次存儲架構緩解 “存儲器墻” 問題, 采用深度片上系統 技術實現計算, 訪存和I/O 的平衡設計 。多層次并行申威1600 處理器只能采用相對較低的制造工藝, 難以通過高工作頻率來滿足性能要求, 必須在多 個層次上開發并行性來提升性能。

cpu性能_cpu性能排行_高性能計算機與多cpu

64位處理器 位數是以通用寄存器的位寬來區分,這個位數指的是cpu gprs(general-purpose registers,通用寄存器)的數據寬度為64位,64位指令集就是運行64位數據的指令,也就是說處理器一次可以運行64bit數據.64位的cpu,相比較32位的cpu來說,64位cpu最為明顯的變化就是增加了8個64位的通用寄存器,內存尋址能力提高到64位,以及寄存器和指令指針升級到64位等. 64bit計算主要有兩大優點:可以進行更大范圍的整數運算:可以支持更大的內存.對于那些要。整數處理單元、高速指令cache 和數據cache 和64 位浮點。◎過去的p4,必須依賴浮點單元進行整數乘法運算,這不僅給浮點單元增加了負擔,而且還需要把待處理的數據在浮點、整數單元之間相互傳遞,浪費處理器內部的數據傳輸帶寬。

向量寄存器與一級數據Cache 之間的數據通路也為256 位, 可為短向量加速運算提 供匹配的存儲訪問帶寬。指令級并行處理器中的指令級并行性主要是指通過流水線技術實現指令之間重疊處理, 通過超標量技術實現 指令之間并行處理, 通過亂序執行技術充分發揮指令并行處理器的效率。 申威1600 處理器核心在開發 數據級并行性基礎上, 再通過挖掘指令級并行, 進一步提升核心性能。(1) 核心采用超標量結構, 實現并行譯碼、并行發射和并行執行。 核心內部實現2 條整數運算流水 線和 1 條浮點與SIMD 運算流水線, 設置 12 條目的整數發射隊列和 10 條目的浮點發射隊列, 實現每 個時鐘周期可發射3 條指令。(2) 采取動態與靜態相結合的轉移預測機制, 通過 512 條目的轉移目標緩沖 BTB(branch target bu?er) 和 8 條目的返回地址堆棧 RAS(return address stack) 來對轉移方向和轉移目標指令地址進行 預測, 提高轉移指令的預測成功率, 提高指令流水的效率。 每個BTB 條目通過2 位飽和計數器記錄條 件轉移指令的歷史處理信息。

(3) 設置5 讀4 寫的71 條目的整數寄存器文件和4 讀3 寫的63 條目的浮點與向量寄存器文件, 實現寄存器重命名, 消除指令之間的寄存器 “反相關性” 和 “輸出相關性” 沖突, 提高指令發射效率。(4) 采用亂序發射和亂序執行技術, 實現最多64 條指令的并行處理, 提高指令并行處理效率。(5) 采用短訪存流水線和雙端口數據Cache 存儲器, 消除數據流Cache 訪問和外部Cache 一致性 處理產生的訪問沖突, 使得訪存指令發射到命中數據Cache 的數據裝填寄存器文件的操作延時僅為4 個周期。線程進程級并行提高工作頻率是提升處理器性能的主要方式之一, 但由此帶來處理器的功耗越來越高, 反過來制 約處理器頻率的進一步提升。另一方面半導體工藝的發展使得處理器上可集成的晶體管數量不斷增 加。 頻率提升的限制和單芯片上集成度提升, 使得處理器進入多核時代,目前世界上主流高性能處理 器都無一例外采用多核架構。申威1600 處理器也同樣采用多核技術, 實現線程/進程級并行, 來提升 處理器性能。申威1600 基于兩級交叉開關結構實現片上互連網絡, 將 16 個完全相同的處理器核心集成到單個 芯片中, 通過原子操作指令實現核心之間的同步互斥、快速核間中斷機制和分布共享存儲實現核心之 間快速通信, 從而可以實現 16 個線程/進程的并行處理。

同時申威1600 采用可伸縮的多核結構, 可實 現 116 核的動態可擴展, 增加并行的核心數量可提升運算性能, 減少并行的核心數量可提升單核心 的I/O 帶寬、訪存帶寬和存儲容量。多層次存儲架構隨著半導體工藝的發展, 高性能處理器中集成的核心數量越來越多, 使得運算性能不斷提升, 而 存儲器帶寬的提升相對較慢, 產生越來越嚴重的 “存儲器墻” 問題。 高性能處理器通常采用多層次存儲 架構, 利用數據訪問的時間局域性與空間局域性, 優化存儲性能。申威1600 為16 核處理器, 針對 “存儲器墻” 問題, 存儲架構設計包括了寄存器文件、一級Cache、 二級 Cache 以及外部存儲器4 個層次, 外部存儲器又分成核組內集中共享存儲器和全芯片的分布共中國科學 信息科學 第 卷 第 期表 申威 的存儲層次The memory hierarchy of Shenwei-1600Size [email protected]。1 GHz (GB/s)FeatureInteger register ?les 71 8 B445 read ports, 4 write ports Float-point/SIMD register ?les 63 32 B 140。

84 read ports, 3 write portsL1 instruction cache 32 KB17。62 way associativityL1 data cache32 KB35。22 ports, 4 way associativityL2 cache256 KB17。68 way associativity DDR memory of one core group 216 GB19。2128 bit-width, 1200 MbpsDDR memory of total chip 864 GB76。84 way 128 bit-width, 1200 Mbps 享存儲器兩級。 考慮到申威 1600 主要面向高性能計算應用, 每個核心設置了兩級 Cache, 并配置高帶 寬的外部存儲器, 在芯片集成度有限的條件下, 沒有配置大容量共享三級Cache。 表 1 為申威 1600 的 存儲層次性能列表。各存儲層次的特點如下:(1) 寄存器文件。 位于存儲層次的最高層, 包括整數寄存器文件和浮點寄存器文件, 采用多端口設 計, 支持單周期訪問和流水操作, 支持寫數據旁路。


本文來自電腦雜談,轉載請注明本文網址:
http://www.gefhbj.live/a/jisuanjixue/article-110346-1.html

相關閱讀
發表評論  請自覺遵守互聯網相關的政策法規,嚴禁發布、暴力、反動的言論

  • 魯隱公
    魯隱公

    你如果在伊拉克對美國說“關你鳥事”

熱點圖片
拼命載入中...
少林宝藏100在线客服