HOME ABOUT CONTACT

GPU軟韌體工程

Rain August 20, 2023
Outline

什麼是GPU

嵌入式系統有哪些GPU品牌

什麼是PPA

從IC設計角度觀測GPU效能

從軟體角度觀測GPU效能

什麼是GPUtop

GPU全名為Graphics Processing Unit (圖像處理器),由於在電腦或是嵌入式系統上, 圖檔是一個龐大資料量的檔案,若交由CPU來負責繪圖到螢幕上呈現的話,效率會非常地差, 因此就產生了GPU這樣的處理器。

那麼GPU和CPU到底差異在哪裡呢? 最主要的差異在於核心數量,一個系統上,CPU可能只有幾顆或幾十顆核心, 而GPU可達上百上千顆核心。雖然GPU擁有大量的核心,但無法執行複雜的計算,因為它最主要的用途就是將大量的資料繪製出來, 因此不需要複雜的邏輯計算單元,而這就是它與CPU硬體上的最大的不同,因為用途不同,而在硬體設計上有所差異。

OpenGL的GLSL可以實現GPU Shader簡單的繪圖計算。

嵌入式系統有哪些GPU品牌top

大多數的人可能較常聽見的是用於PC的GPU品牌,像是Nvidia或是AMD之類的。而在嵌入式系統中, 市佔率由大到小分別是ARM、Imagination、Vivante (現已被Verisilicon收購)。

什麼是PPAtop

在IC設計中,通常不會只有看IP的效能(Performance),而是較全面的PPA,分別為Performance(效能)、Power(功耗)和Area(面積)。 關於GPU的PPA議題,這有點難以描述的,但可以簡單地劃分為三個角度。第一是GPU製造商廣告或業務宣稱的PPA, 由於製造商去賣產品的決不會是工程師,所以有可能業務與客戶之間在討論PPA時會出現錯誤資訊,嚴重者甚至會被視為廣告不實。 第二是硬體本身的設計,也就是IP最真實的PPA。第三是IC設計的結果,除了得看IC Designer的能力之外,最主要就是公司規劃的Spec。

照理來說,PPA的議題應該只存在第二和第三個,而第一個是不應該存在的,但就我個人的經驗來說,這是以前廠商業務常出現的問題,因此特別提出。

從IC設計角度觀測GPU效能top

在IC設計這個環節,公司買進來的像是CPU、GPU、BUS、DRAM等等的元件,稱之為IP(Intellectual Property)。 而在電路設計中,每個IP都有基本的供電和資料量的需求,這又可稱之為Clock Frequency(時脈頻率),當外部供應了這個基本需求後,就可達到IP的基本效能表現。 而當供電和供應的資料量超過IP的基本標準時,這就稱之為Overclocking(超頻),雖然它可以擁有更強的效能表現, 但也伴隨著負面效應,除了會更耗電之外,也因為長時間更大的耗電而導致過熱,消耗的即是硬體的壽命,嚴重的可能產生不預期的危險情況。

每個IP之間的聯繫,是由一個重要的IP來負責,那就是BUS(資料匯流排),如下圖示:

IC_Design_GPU

GPU到DRAM去讀寫資料的速度,除了取決於每個IP的Clock Frequency之外,還有GPU到DRAM的距離,因此若硬體佔用面積越大, 就會造成彼此間的距離增加,這個就是前面所說PPA的Area。

每個IP聯繫起來之後,就會彼此相互影響。如前面所述,每個IP可能因為商業溝通上的問題,導致IP或甚至整個IC在效能表現上不符合預期, 例如IP硬體內部設計的因素,導致外部給予的Clock Frequency,到了內部都會被砍半,例如下圖:

IC_Design_GPU_2

當外部給予600MHz的Clock Frequency,到了GPU內部變成了300MHz,需要特定的條件才能達到600MHz,因此這也不算是廣告不實, 只能說製造商的廣告包裝得很好,這往往也是為什麼製造商可以壓低價錢販賣IP的原因,這是我真實遇過的案例。

除了GPU可能有潛在的內部問題之外,還有什麼因素會導致效能變差呢? BUS也是一個重要因素,如前面所述,BUS本身也是一個IP, 而連接到這個BUS上的電路也都是影響因子,例如下圖:

IC_Design_GPU_3

當GPU的Bandwidth(頻寬)有128 bit,但BUS卻只有64 bit的頻寬時,這時就需要有一層轉換,而這層轉換稱為Wrapper。前面提到的Overclocking(超頻),是我們給予超過IP基本需求時,可以產出超過IP的標準效能, 但是有Wrapper這樣的角色存在時,會導致不管是超頻或是不超頻的情況下,都會讓效能卡在一個階段就停止了。

那如果把BUS的頻寬也改成128 bit不就解決了嗎? 當然這是一個方法,但這就會讓整個IC的成本也跟著提升了,成本提升就無法發揮Cost Down的商業競爭策略。

除此之外,還有需要考量的也是Bandwidth延伸出來的問題。如一開始所提到的,現在的圖檔隨著解析度越來越高,資料量越來越大,Bandwidth是沒辦法承載這樣的資料量的,因此在GPU產出的時候, 都會進行壓縮,讓BUS的Bandwidth不被GPU佔滿,否則其他的IP都會被癱瘓掉。

現在問題來了,檔案壓縮之後,到螢幕(On Screen Display; OSD)呈現之前它又需要解壓才能呈現,那這個過程該怎麼辦? 這又產生了一個商業策略,通常GPU製造商不會只有做GPU,它還會有自家的解壓器、顯示器等等。 他們會希望你買他們家一系列的產品,因為這些都是環環相扣的元件,需要這樣的組合,效能才能發揮到理想狀態,如果混搭其他製造商的IP,可能就會有效能不彰的問題,因為各家的壓縮和解壓演算法不同所導致。

買同一家的GPU和解壓器,可以解決上述的問題。但是如果想省成本而不想買解壓器呢? GPU是可以做解壓和檔案轉換的,但是這樣一來效率又要掉了,因為GPU又必須多做這些處理,導致到螢幕呈現的過程會變得更慢。 以上這些都是IC設計時需要考量的重點。

從軟體角度觀測GPU效能top

當IC設計藍圖完成之後,就會委託各家的IP製造商進行製造,最後才會拿到實體的IC設計電路板(我們稱之為IC回廠)。這時就會開始搭建軟體環境,例如作業系統、驅動程式、軟體框架等等。

那麼,我們要怎麼從軟體去計算GPU的效能呢? 以2D GPU來說,我們常計算的是Pixel Rate (PR),也就是GPU每秒能夠繪製多少的像素,然後再依據OSD的解析度去推算FPS。當然也有其他的測試項目,像是每秒繪製幾條線、矩形等等。另外還有就是透明度和抗鋸齒的功能,GPU在繪製半透明的圖形時,PR是多少? 混色效果是否有異常? 是否有鋸齒? 這些都是2D GPU軟體測試的幾項重點。

那麼3D GPU呢? 3D GPU除了PR之外,會去計算Texel、Triangle和Vertex。Texel主要就是GPU繪製紋理的速度,通常可能是PR效能的一半,但不一定,還是要看GPU的能力。Triangle是計算GPU可以繪製多少的三角面,由於3D模型都是用許多細小的三角面拼湊而成的,因此GPU在這個部分也是一個效能指標。再來就是Vertex,其實跟Triangle是相隨的,因為三角面是由三個頂點組合而成的,因此這是三角面的最基本元素。

除了這些之外,還有另一個數值也會量測,那就是G-Flops(每秒計算浮點數量)。有學過OpenGL或相關框架的讀者應該都知道,到了3D繪製的環節,GPU其實在處理的是大量的浮點數計算,因此G-Flops也是一項效能指標。 通常在軟體量測的時候,廠商都會給予他們的標準效能,例如會標示1 pixel/clock,也就是1個clock能產出1個pixel,而上述的指標也都會個別指出能力標準。當然了,軟體測試也存在其他因素導致效能不如預期,這個部分就已經無法細細舉例了,因此在IC驗證的環節時,就要盡量找出問題,因為在這個時候環境是相對單純的,找到效能不彰的原因會容易許多。

Last updated:

Related Article List

  1. Arm Mali GPU的虛擬化促進了下一代車載體驗

Article List