9月10日,全球兩場(chǎng)重磅發(fā)布會(huì)掀起本月科技圈發(fā)布會(huì)的序幕。一邊,是大洋彼岸搭載A19系列的全新旗艦iPhone 17閃亮登場(chǎng),憑借新一代硬件升級(jí)引發(fā)廣泛關(guān)注;另一邊,是中國(guó)上海Arm Unlocked 2025 技術(shù)峰會(huì)上,Arm Lumex CSS計(jì)算平臺(tái)重磅發(fā)布,全新一代旗艦CPU、GPU、SME2技術(shù)同步亮相,為端側(cè)AI的發(fā)展和規(guī)模普及帶來(lái)強(qiáng)大動(dòng)能。
Lumex CSS:Arm最強(qiáng)CPU與GPU雙登場(chǎng),看準(zhǔn)端側(cè)AI計(jì)算的發(fā)展
AI從云端向端側(cè)遷移的趨勢(shì),正在為芯片產(chǎn)業(yè)帶來(lái)全新的挑戰(zhàn):3nm等先進(jìn)工藝節(jié)點(diǎn)上的設(shè)計(jì)復(fù)雜度大幅提升;芯片有限尺寸下,面積控制和散熱效率的平衡要求愈發(fā)嚴(yán)苛;為保持AI性能所采用的先進(jìn)封裝技術(shù),也對(duì)內(nèi)存、算力、帶寬、延遲等核心指標(biāo)提出一系列要求,共同構(gòu)成芯片設(shè)計(jì)行業(yè)亟待突破的新命題。其中最大的挑戰(zhàn),在于AI時(shí)代技術(shù)快速迭代,市場(chǎng)競(jìng)爭(zhēng)日趨激烈下,移動(dòng)端芯片和設(shè)備發(fā)布窗口的一再提前。
簡(jiǎn)而言之,芯片設(shè)計(jì)的方式,以及終端設(shè)備的形態(tài),正因AI而重塑。
這樣的現(xiàn)實(shí)需求之下,Arm近年來(lái)推出CSS集成平臺(tái),通過(guò)將Arm CPU和GPU IP,與物理實(shí)現(xiàn)和部署就緒的軟件棧相結(jié)合,從而加快產(chǎn)品上市進(jìn)程,并在最新的先進(jìn)工藝節(jié)點(diǎn)上實(shí)現(xiàn)業(yè)界領(lǐng)先的性能。而Lumex CSS則是面向移動(dòng)端市場(chǎng)的最新成果。
這種“平臺(tái)優(yōu)先”的方法體現(xiàn)出Arm正在向計(jì)算平臺(tái)的快速轉(zhuǎn)換,這種轉(zhuǎn)換不僅體現(xiàn)在核心IP層面,也體現(xiàn)在系統(tǒng)層面。它使Arm的合作伙伴能夠更快、更自信、更輕松地集成Arm的技術(shù)——尤其是能夠便于針對(duì)AI需求而進(jìn)行擴(kuò)展。
Lumex CSS可以被視為模塊化且高度可配置的平臺(tái)。其包括:
新一代Armv9.3 C1 CPU集群(雙位數(shù)IPC性能提升),內(nèi)建第二代Arm可伸縮矩陣擴(kuò)展 (SME2) 單元,顯著增強(qiáng)了CPU集群的AI能力。此次新推出的C1 CPU集群中,全新高性能旗艦CPU Arm C1-Ultra是新一代的Cortex-X925,為Arm連續(xù)六年保持兩位數(shù)性能提升的紀(jì)錄,其單線程峰值性能較上一代 Cortex-X925 CPU,提升高達(dá)25%。這一性能躍升的主要驅(qū)動(dòng)力來(lái)自兩位數(shù)的每時(shí)鐘周期指令數(shù) (IPC) 增長(zhǎng)。
全新的Arm Mali G1-Ultra GPU,引入新一代光追技術(shù)實(shí)現(xiàn)桌面級(jí)的視覺(jué)效果與游戲體驗(yàn),以及實(shí)現(xiàn)更加快速的AI推理能力。
新的系統(tǒng)IP包含Arm SI L1系統(tǒng)互連與Arm MMU L1系統(tǒng)內(nèi)存管理單元:其專為滿足高要求 AI 和其他計(jì)算密集型工作負(fù)載的帶寬與延遲需求而優(yōu)化,旨在消除系統(tǒng)性能瓶頸,以及降低推理密集型和計(jì)算密集型工作負(fù)載中的延遲。3nm就緒的CPU和GPU物理實(shí)現(xiàn):顯著縮短在芯片設(shè)計(jì)上實(shí)現(xiàn)旗艦級(jí)性能的進(jìn)程,助力旗艦芯片研發(fā)設(shè)計(jì)提速。
整體而言,Lumex CSS更像是一個(gè)緊密耦合的協(xié)同開(kāi)發(fā)設(shè)計(jì)的整體IP解決方案,它其中包括全新的CPU、GPU、互聯(lián)、內(nèi)存管理以及系統(tǒng)IP。此外,結(jié)合KleidiAI等軟件開(kāi)發(fā)工具,共同帶來(lái)性能上的強(qiáng)大表現(xiàn)以及設(shè)計(jì)上的靈活性,應(yīng)用開(kāi)發(fā)上的便捷性。
不過(guò)Arm也強(qiáng)調(diào),合作伙伴可靈活選擇使用 Arm Lumex 的方式。例如,他們可直接采用 Arm 交付的平臺(tái),并借助為其需求定制的先進(jìn)物理實(shí)現(xiàn)方案,從而獲得縮短產(chǎn)品上市時(shí)間和快速兌現(xiàn)性能價(jià)值等雙重優(yōu)勢(shì);或者,合作伙伴也可根據(jù)他們的目標(biāo)市場(chǎng),以獲取RTL交付的方式,對(duì)他們的芯片設(shè)計(jì)進(jìn)行配置,并自行完成核心模塊的硬化工作。
前者這種類似“交鑰匙”的方案,能夠極大降低芯片設(shè)計(jì)公司在AI異構(gòu)芯片設(shè)計(jì)時(shí)的門檻,提升流片成功率,使芯片設(shè)計(jì)廠商專注于打造差異化創(chuàng)新,提高產(chǎn)品市場(chǎng)競(jìng)爭(zhēng)力,助力Arm的生態(tài)系統(tǒng),實(shí)現(xiàn)更加高效快速的差異化交付以及領(lǐng)先的AI體驗(yàn),推動(dòng)端側(cè)AI實(shí)現(xiàn)大規(guī)模的部署。
當(dāng)前,手機(jī)、數(shù)據(jù)中心、汽車等廠商及系統(tǒng)公司,出于軟硬協(xié)同,打造差異化等原因,紛紛走向自研化芯片之路,如果完全自行開(kāi)發(fā),意味著數(shù)百人的工程師團(tuán)隊(duì)、長(zhǎng)達(dá)多年的研發(fā)投入,而通過(guò)Arm CSS,將讓這件事情變得簡(jiǎn)單。2023年CSS方案推出以來(lái),幫助合作伙伴將首款芯片的開(kāi)發(fā)時(shí)間縮短長(zhǎng)達(dá)12個(gè)月。
通過(guò)相對(duì)比較低的成本來(lái)實(shí)現(xiàn)專業(yè)化和差異化,并且通過(guò)芯片來(lái)創(chuàng)造最大的價(jià)值。這就是Arm的CSS平臺(tái)一經(jīng)推出便受到市場(chǎng)歡迎的原因。目前,Arm CSS擁有超過(guò)16個(gè)設(shè)計(jì)訂單和多個(gè)重復(fù)訂單,其中超過(guò)一半在過(guò)去一年中實(shí)現(xiàn),體現(xiàn)出市場(chǎng)對(duì)此的熱情和需求。
最大亮點(diǎn):C1全線CPU全面啟用SME2
過(guò)去二十年來(lái),Arm一直致力于在CPU架構(gòu)上添加AI特性、規(guī)范和指令,提升CPU的AI和ML能力。2003年首次發(fā)布的Armv7架構(gòu)增加了高級(jí) SIMD 擴(kuò)展,也稱為Arm Neon 指令。隨后 Armv8 架構(gòu)增加了一系列 AI 的規(guī)范和指令,包括點(diǎn)積指令、矢量?jī)?nèi)矩陣乘法指令和BFloat16支持以及SVE。在Armv9-A中支持了SVE2以及SME等。
值得指出的是,此次新發(fā)布的C1 CPU系列通過(guò) Armv9.3 架構(gòu)直接內(nèi)建第二代 Arm 可伸縮矩陣擴(kuò)展 (SME2),顯著提升了CPU的AI能力,為加速端側(cè)AI體驗(yàn)帶來(lái)了革命性突破。蘋果去年發(fā)布的A18 Pro 芯片中首次采用SME,過(guò)去一年,SME一直是果系產(chǎn)品的專屬,而此次Arm將升級(jí)后的SME2注入Armv9 架構(gòu),則填補(bǔ)了安卓陣營(yíng)在該技術(shù)能力上的空白,這也為后續(xù)的旗艦手機(jī)性能競(jìng)爭(zhēng)增添了更多看點(diǎn)。
SME是在可伸縮向量擴(kuò)展(Scalable Vector Extensions,SVE和SVE2)的基礎(chǔ)上建立的,并增加了有效處理矩陣的能力,最初出現(xiàn)在Armv9架構(gòu)中,是一組高級(jí)CPU指令,可以明顯提升CPU處理矩陣的吞吐量和效率。
據(jù)了解,在搭載SME2增強(qiáng)硬件的設(shè)備上運(yùn)行Google Gemma 3模型時(shí),其聊天交互中的AI響應(yīng)速度比未啟用SME2的同款設(shè)備快六倍。此外,僅用單個(gè)CPU核心,Gemma 3便可在不到一秒的時(shí)間內(nèi)啟動(dòng)多達(dá) 800 字的文本摘要任務(wù)。目前,一家領(lǐng)先的獨(dú)立軟件供應(yīng)商 (ISV) 已承諾將其應(yīng)用中的大部分詞元 (token) 生成工作負(fù)載從云端遷移到移動(dòng)端,這在一定程度上得益于端側(cè)AI能力的持續(xù)突破。
除了性能的提升,SME2還為Arm生態(tài)系統(tǒng)(如 iOS 與安卓)提供可移植的解決方案。目前,已有 900萬(wàn)款應(yīng)用在Arm計(jì)算平臺(tái)上運(yùn)行,超過(guò)2200萬(wàn)名軟件開(kāi)發(fā)者基于Arm平臺(tái)構(gòu)建應(yīng)用和工作負(fù)載。
對(duì)于開(kāi)發(fā)者而言,他們無(wú)需改動(dòng)現(xiàn)有代碼、模型或應(yīng)用程序,即可直接獲取SME2帶來(lái)的性能提升。這得益于Arm的軟件加速層——Arm KleidiAI,它能夠無(wú)縫集成到主流運(yùn)行時(shí)庫(kù)和 AI 框架中,為開(kāi)發(fā)者提供開(kāi)箱即用的性能體驗(yàn)。
據(jù)Arm方面介紹,搭載SME2增強(qiáng)硬件的安卓新機(jī)即將上市,開(kāi)發(fā)者可率先通過(guò)硬件加速解鎖AI性能躍升。與此同時(shí),SME2已支持最新的iOS設(shè)備,只要應(yīng)用中使用了集成SME2的AI 框架,便可自動(dòng)享受這些性能提升。
整體而言,SME技術(shù)的價(jià)值不僅在于速度的提升,更在于釋放出傳統(tǒng)CPU無(wú)法企及的AI驅(qū)動(dòng)功能。SME技術(shù)體現(xiàn)出Arm在架構(gòu)方面的不斷創(chuàng)新,賦予了CPU更強(qiáng)大的AI處理能力,同時(shí)帶來(lái)更低的成本和開(kāi)發(fā)門檻,也為端側(cè)AI的普及和規(guī)模擴(kuò)展奠定了基礎(chǔ)。
在Arm看來(lái),SME2是非常適合目前移動(dòng)設(shè)備的需求。
首先,通過(guò)不斷加持的指令集,SME2可以逐步提高性能和效率,同時(shí)它也能夠支持較小的數(shù)據(jù)集和數(shù)據(jù)類型,包括2位4位,隨著每年高度量化模型的不斷增多,這類小數(shù)據(jù)類型在移動(dòng)生態(tài)系統(tǒng)中的重要性正日益凸顯。
其次,CPU編程語(yǔ)言相對(duì)固定,對(duì)于開(kāi)發(fā)而言編程語(yǔ)言和框架相對(duì)固定,具有高度的可編程性。GPU在實(shí)際使用過(guò)程中,對(duì)于實(shí)際加速的數(shù)據(jù)類型存在限制,而且和傳統(tǒng)的AI工作流程比,GPU更多被用于圖形的工作流程中,這無(wú)疑會(huì)對(duì)模型造成一定影響。而NPU而言,并無(wú)固定標(biāo)準(zhǔn)的編程框架,其本身的算力和訴求也非常獨(dú)特,上述因素使得CPU成為AI開(kāi)發(fā)的最佳負(fù)載,且具有更高的靈活性。
第三,SME2在CPU上非常擅長(zhǎng)處理的一種負(fù)載形式,是包括機(jī)器學(xué)習(xí)等對(duì)于延遲要求非常高的AI訴求場(chǎng)景。由于SME2本身集成于CPU中,無(wú)需將數(shù)據(jù)推送到其他地方處理,使得其具有極高的響應(yīng)速度,非常適合目前端側(cè)AI的需求。
結(jié)語(yǔ)
此次Arm Lumex平臺(tái)的重磅發(fā)布,通過(guò)在CPU、GPU以及移動(dòng)端平臺(tái)的創(chuàng)新,Arm再次拉高了移動(dòng)計(jì)算平臺(tái)的天花板,無(wú)論是對(duì)于行業(yè)還是對(duì)于Arm自身而言都極具意義。
當(dāng)前,以手機(jī)為代表的消費(fèi)電子市場(chǎng)正在經(jīng)歷緩慢復(fù)蘇,AI尚處于早期階段,但對(duì)于消費(fèi)者而言,AI到底能夠發(fā)揮什么樣的價(jià)值,成為其購(gòu)買選擇的重要?jiǎng)恿?,這一點(diǎn)在當(dāng)前高端手機(jī)市場(chǎng)已經(jīng)有所體現(xiàn)。而Arm Lumex平臺(tái)的發(fā)布,帶來(lái)的多項(xiàng)填補(bǔ)行業(yè)空白以及引領(lǐng)行業(yè)的創(chuàng)新,一方面極大提升了端側(cè)AI的能力,為端側(cè)AI釋放價(jià)值奠定基礎(chǔ);另一方面,也有助于推動(dòng)端側(cè)AI的普及,這種AI普惠將使得全行業(yè)以及各個(gè)消費(fèi)階層因此而受益。
近年來(lái),Arm加速平臺(tái)化產(chǎn)品組合發(fā)展演進(jìn),無(wú)論是TCS,還是CSS,以及Lumex等子品牌的建立,都是這一策略下的成果。在這個(gè)過(guò)程中,Arm已成功從 “IP 供應(yīng)商” 升級(jí)為 “系統(tǒng)級(jí)方案提供商”。
得益于蓬勃發(fā)展的AI時(shí)代浪潮,轉(zhuǎn)型中的Arm 正在持續(xù)收獲成功。在剛剛過(guò)去的幾個(gè)財(cái)季,Arm的財(cái)務(wù)指標(biāo)連續(xù)創(chuàng)下季度新高,其中包括實(shí)現(xiàn)單季營(yíng)收破10億美元的壯舉。在數(shù)據(jù)中心、汽車電子等新興市場(chǎng)也持續(xù)實(shí)現(xiàn)突破。
Lumex CSS平臺(tái)可以被視為其在端側(cè)AI時(shí)代的 重要“戰(zhàn)略錨點(diǎn)”。 今年是Arm架構(gòu)推出四十年,站在新的歷史節(jié)點(diǎn),Arm在端側(cè)AI的影響力進(jìn)一步得到重塑,Arm品牌也因此而煥發(fā)出全新價(jià)值。