近日,華為公開了昇騰服務(wù)器上部署DeepSeek V3/R1推理的最佳實踐,并介紹了一系列創(chuàng)新技術(shù)。
其中,華為在降低計算資源需求方面,創(chuàng)新提出了昇騰親和的低比特量化解決方案OptiQuant,最終實現(xiàn)了INT8量化模式與FP8的模型推理精度持平。

由于DeepSeek V3/R1模型是基于英偉達(dá)生態(tài)訓(xùn)練,并推薦使用FP8精度推理,而國產(chǎn)芯片普遍沒有原生支持FP8精度,導(dǎo)致國產(chǎn)芯片對DeepSeek的適配不佳。華為昇騰的上述研究應(yīng)該就是為了解決這一問題。
通常情況下,在模型推理階段,進(jìn)行量化(如FP8量化為INT8)可以顯著降低模型對硬件的存儲需求和計算復(fù)雜度,但也會造成模型推理精度的損失以及邏輯錯誤等問題。因此如何保持推理精度,是低比特量化滿足不同平臺部署需求時的前提。
據(jù)華為介紹,基于BF16的DeepSeek需要1.3TB的顯存空間,同時導(dǎo)致極大的算力和跨機(jī)通信開銷。而校準(zhǔn)集的泛化性缺失導(dǎo)致了在很多任務(wù)上難以達(dá)到與原有模型相近的精度水平,甚至在某些場景下精度下降十分嚴(yán)重。同時,還要考慮如何設(shè)計昇騰親和的量化算法,以發(fā)揮硬件性能。
針對上述問題,華為提出了OptiQuant量化框架,一種高性能保精度量化方案,設(shè)計了層間自動混精、自動混合校準(zhǔn)、離群值抑制、可學(xué)習(xí)的截斷和SSZW參數(shù)量化算法。除了支持業(yè)界主流量化算法功能之外,它還新增支持三個功能:接入自定義量化算法和數(shù)值類型,可以將多種量化算法的自由組合搭配使用;支持業(yè)內(nèi)主流評測數(shù)據(jù)集和用戶自定義的數(shù)據(jù)校準(zhǔn)集;支持?jǐn)?shù)據(jù)并行和流水并行,針對不同大小的大語言模型實現(xiàn)精度驗證性能加速。
OptiQuant框架主要由以下幾個模塊組成:
量化類型和數(shù)值類型:OptiQuant支持了Int2/4/8和FP8/HiFloat8等數(shù)據(jù)類型,支持業(yè)界的Qserve,HQQ,LUT等量化方法,在此基礎(chǔ)上提出了可學(xué)習(xí)截斷和量化參數(shù)優(yōu)化等算法,進(jìn)一步減少了量化誤差。
多樣化測試數(shù)據(jù)集和用戶自定義校準(zhǔn)集:多樣化測試數(shù)據(jù)集和用戶自定義校準(zhǔn)集:OptiQuant支持了判斷題,問答題,代碼題和數(shù)學(xué)題等多種測試類別,語種上支持了十種常見語言。此外,OptiQuant支持用戶自定義校準(zhǔn)集,提升模型量化過程中的泛化性。
量化權(quán)重生成:OptiQuant提出了自適應(yīng)層間混精算法,并且根據(jù)對應(yīng)的量化配置生成對應(yīng)的權(quán)重參數(shù),通過去冗余技術(shù)減少參數(shù)保存的參數(shù)量;OptiQuant進(jìn)一步提出了FlexSQ等算法,在數(shù)據(jù)校準(zhǔn)過程中,對大模型激活異常值進(jìn)行了平滑處理,有助于對激活做低比特量化。
最終,基于Atlas 800I A2服務(wù)器的精度測試實驗結(jié)果顯示,對于DeepSeek-V3-0324模型,W8A8C16和W4A8C16均采用Per-channel量化,實現(xiàn)了推理精度與FP8-GPU持平。


華為表示,在DeepSeek R1/V3大模型推理場景中,實現(xiàn)了INT8量化模式與FP8的模型推理精度持平,而且進(jìn)一步發(fā)揮了華為Atlas 800I A2和CloudMatrix384集群推理硬件性能。而相關(guān)代碼也將逐步開源。