本站真誠介紹香港這個「東方之珠」和「亞洲國際都會」

亞洲國際都會 asiasworldcity

当前位置: 主页 > 百科知識 > 百科知識1 >

AMD收購兩家公司:一家芯片公司,一家軟件公司

(本文内容不代表本站观点。)
香港飛龍 Hong Kong HK Dragon
「香港飛龍」標誌

本文内容:

如果您希望可以時常見面,歡迎標星收藏哦~來源:內容 編譯自 AMD 。AMD 週四證實,已收購 Untether AI 的員工,Untether AI 是一家 AI 推理芯片開發商,其產品據稱比邊緣環境和企業數據中心的競爭對手產品速度更快、更節能。AMD 發言人在一份聲明中告訴 CRN:“AMD 已達成戰略協議,將從 Untether AI 收購一支優秀的 AI 硬件和軟件工程師團隊。”該代表補充道:“此次交易將爲 AMD 帶來一支世界一流的工程師團隊,致力於提升公司的 AI 編譯器和內核開發能力,並增強我們的數字和 SoC 設計、設計驗證和產品集成能力。我們非常高興地歡迎該團隊以其獨特的專業知識加入 AMD。”AMD 發言人拒絕透露該交易的財務細節。Untether AI 高管鮑勃·比奇勒 (Bob Beachler) 發表聲明稱,作爲交易的一部分,該初創公司“將不再提供或支持我們的 speedAI 產品和 imAIgine 軟件開發套件”Untether AI 的產品和策略當我們上次關注 Untether AI 是在 2021 年時,這家 AI 推理硬件初創公司剛剛獲得 1.25 億美元的融資,而這距離該公司正式推出其第一代 runAI200 設備及其獨特的內存推理方法已經過去了一年。第五輪融資遠超這家成立四年的公司此前籌集的2700萬美元,使Untether AI的總融資額達到1.52億美元。在本週舉行的Hot Chips 34線上會議上,業界得以一窺這家初創公司如何運用這筆新獲得的資金。Untether AI 推出了用於 AI 推理工作負載的第二代內存架構 speedAI240 設備,其內部代號爲“Boqueria”。該架構旨在提高能源效率和密度,並配備空間架構,使設計人員能夠將其擴展到更小或更大的設備,並以某種方式互連,以處理最大的自然語言處理模型。該公司最初的 runAI200 推理加速器採用臺積電 16 納米工藝製造,提供 500 INT8 TOPs 性能、每瓦 8 TOPs 的能效和 200 MB 的 SRAM。新款“Boqueria”芯片採用臺積電 7 納米工藝製造,具有 2 petaflops 的 FP8 性能(相當於每瓦 30 teraflops)和 238 MB 的 SRAM 內存。Untether AI 產品和硬件架構副總裁、曾在賽靈思和 Altera 等公司任職的資深人士 Robert Beachler 在 Hot Chips 大會的演講中表示:“藉助 Boqueria,我們正在解決 AI 推理面臨的三大關鍵挑戰。首先,它的內存計算結構提供了無與倫比的能效,從而能夠提升神經網絡的吞吐量和加速能力。它是一種可擴展的空間架構,使我們能夠製造更小和更大的設備,並將它們互連在一起,從而擴展到最大的自然語言處理模型。此外,由於我們選擇了合適的計算粒度,我們能夠支持當今的神經網絡架構,併爲未來的神經網絡做好準備。”它還支持多種數據類型,使組織能夠在準確性和吞吐量之間進行權衡,以滿足其應用程序的特定需求,Beachler 說。Untether AI 擁有一支擁有深厚加速器經驗的團隊,成立於 2018 年,並進入了人工智能推理領域,該領域不僅擠滿了谷歌、Nvidia 和微軟等老牌公司,還有 Cerebras、SambaNova、Graphcore 和 Celestial AI 等一大批初創公司,所有這些公司都希望在人工智能和機器學習市場獲得發展。正如我們在 2020 年該公司重出江湖時深入探討的那樣,該公司的一箇關鍵差異化優勢在於其內存計算架構。正如 Beachler 在 Hot Chips 上所解釋的那樣,神經網絡計算中 90% 的能耗來自於從外部存儲器或內部緩存中移動數據。傳統的馮·諾依曼近內存架構效率低下,總線又長又窄,緩存也很大。另一方面,內存架構能耗低,但這種設計也會降低性能。“我們是內存計算領域的先驅,將計算元件直接連接到存儲單元。這是人工智能加速的最佳點。”他說道,並補充道,“內存計算採用標準的數字邏輯工藝和標準的SRAM單元,但由於數據從存儲單元到實際計算元件的傳輸距離非常短,因此能效極高……我們在Untether所做的,實際上是儘可能提高數據傳輸的效率,並將計算放在數據所在的地方。我們還構建了架構,使其在必要的粒度級別上擁有適量的計算能力,並專門針對神經網絡加速進行了定製。”對於 speedAI240 設備,Untether AI 還實現了兩種不同的 AP 格式——一種是 4 位尾數版本,稱爲 FP8p(精度),另一種是 FP8r(範圍)。該公司表示,這爲跨不同網絡(例如 ResNet-50 等卷積網絡和 BERT-Base 等轉換網絡)的推理提供了最佳的準確度和吞吐量。通過這些 FP8 實現,與BF16 數據類型相比,該公司發現準確度損失不到 1% 的十分之一,吞吐量和能效提高了四倍。內存架構的基礎是內存庫。Boqueria 的第二代內存庫可容納兩個 1.35 GHz 7 納米 RISC-V 處理器,使 speedAI240 設備擁有 1,435 個核心。每個 RISC-V 處理器管理四個行控制器,每個控制器獨立運行。Boqueria 還支持外部內存,通過兩個 x64 端口和 PCI-Express Gen5 接口,可支持 32 GB LPDDR5 內存,用於主機和芯片間的連接。Bleacher 表示,Untether AI 通過添加各種指令對 RISC-V 芯片進行了改造,以使其適應 AI 推理的需求。Untether AI 聯合創始人兼首席技術官 Martin Snelgrove 概述了 speedAI 架構的層次結構,從低功耗 SRAM 陣列和處理單元,到高效的數據傳輸設計,其中包括一種名爲“肩袖”的通信設計,用於引導存儲體內部和存儲體之間的通信。此外,還有一箇高帶寬片上網絡 (NOC) 圍繞芯片外圍運行。“這不是現成的NOC,”Snelgrove說。“它的設計是爲了提高能源效率。數據會以儘可能短的距離發送,這意味着會消耗盡可能少的能量,並且管理員可以選擇設置任何利用方式。”Beachler 表示 speedAI 的空間架構推動了它的擴展能力。他說:“我們可以減少芯片上內存條的數量,以適應不同的外形尺寸和功耗要求。在我們的整個 Boqueria 系列中,我們將從一些 1 瓦的設備一直擴展到基礎設施級設備的 B4。這使我們能夠滿足多種不同的性價比和外形尺寸需求。我們將推出一系列從單瓦 .m2 到 PCI-Express 的卡。我們擁有非常靈活的 I/O 環,這使得它能夠支持 chiplet,因此對於那些希望將 die-to-die 與 SoC 直接集成的用戶來說,我們也具備這種能力。”他表示,Untether AI 能夠將六臺 Boqueria 設備安裝到一張 PCI-Express 卡上,從而驅動大量 SRAM 功能,以擴展到最大的語言模型。他還補充道:“憑藉我們的芯片間和卡間互連技術,我們現在可以實現非常強大的服務器。此外,我們還配備了外部 LPDDR 5,爲芯片提供了巨大的存儲空間。總而言之,這種可擴展性使我們能夠在標準 PCI-Express 尺寸下提供最佳性能和能效。”Untether AI 還提供了 ImAIgine SDK,該 SDK 能夠從 TensorFlow 和 PyTorch 等常見機器學習框架中提取神經網絡,並“將其精簡爲在這些 RISC-V 處理器上運行的內核代碼”,Beachler 表示。“我們提供預先創建的神經網絡模型,但大多數客戶都擁有自己已經訓練好的神經網絡。我們提供自動量化功能,將其精簡爲所需的數據類型。”供應商還負責編譯和映射到內核代碼、將內核放置到芯片上的物理分配以及自動互連。此外,還有一套分析工具,一旦供應商獲得編程文件,就可以將其放入芯片中,並通過具有基於 C 或 Python 的 API 的運行時對其進行控制,以便集成到企業更大的機器學習框架中。AMD還收購了一家軟件公司與此同期,AMD收購還收購了軟件公司Brium,強化開放AI軟件生態系統。AMD在官方博客中表示,公司致力於構建高性能、開放的 AI 軟件生態系統,賦能開發者,推動創新。今天,我們非常高興地宣佈收購 Brium,這支團隊匯聚了世界一流的編譯器和 AI 軟件專家,在機器學習、AI 推理和性能優化方面擁有深厚的專業知識,邁出了新的一步。Brium 帶來了先進的軟件功能,增強了我們在整個堆棧中提供高度優化的 AI 解決方案的能力。他們在編譯器技術、模型執行框架和端到端 AI 推理優化方面的工作將在提升我們 AI 平臺的效率和靈活性方面發揮關鍵作用。此次收購鞏固了我們長期創新的基礎。它體現了我們對人工智能的戰略承諾,尤其是對構建智能應用未來的開發者的承諾。這也是繼收購 Silo AI、Nod.ai 和 Mipsology 之後,我們一系列定向投資的最新舉措,這些投資共同提升了我們支持開源軟件生態系統的能力,並在 AMD 硬件上提供優化的性能。Brium 的獨特之處在於其能夠在模型到達硬件之前優化整個推理堆棧。這減少了對特定硬件配置的依賴,並在廣泛的部署中實現了更快、更高效的開箱即用 AI 性能。憑藉在編譯器開發和分佈式機器學習基礎架構方面的豐富經驗,該團隊將立即爲 OpenAI Triton、WAVE DSL 和 SHARK/IREE 等關鍵項目做出貢獻。這項工作對於在 AMD Instinct™ GPU 上更快、更高效地執行 AI 模型至關重要。通過專注於 MX FP4 和 FP6 等新的精度格式,我們正在使我們的 AI 平臺能夠更有效地處理訓練和推理中出現的工作負載,幫助開發人員在保持效率和成本效益的同時實現更高的性能。人工智能正以驚人的速度發展,開發者需要一箇不僅強大,而且靈活開放的生態系統。收購 Brium 將通過引入深厚的專業知識來加速支持我們 AI 軟件堆棧的開源工具的發展,從而強化這一願景。Brium 在庫、編譯器、構建系統、分佈式系統和機器學習技術方面擁有豐富的經驗,並具備獨特的跨領域能力,能夠在整個產品線中創造強大的協同效應。這種深度的拓展使我們能夠爲開發者和客戶提供更全面、更集成的解決方案。隨着人工智能在醫療保健、生命科學、金融和製造等行業日益重要,AMD 致力於滿足這些垂直領域客戶的特殊需求。此次收購 Brium 帶來的專業知識正是推進這一使命所需的。他們成功將深度圖庫 (DGL) 移植到 AMD Instinct 平臺,清晰地展現了他們如何在健康科學領域實現尖端人工智能應用。這種領域專業知識增強了我們爲高價值行業提供優化解決方案的能力,拓寬了我們的市場覆蓋範圍,並鞏固了我們在各行各業作爲值得信賴的合作伙伴的地位。此次收購是 AMD 使命的又一重要進展,即爲開發者提供開放、可擴展的 AI 軟件平臺,充分釋放我們硬件的潛力。展望未來,我們將繼續投資於人才、工具和技術,以增強我們支持 AI 開發者社區的能力,並助力各行各業實現突破。這不僅僅是軟件方面的努力,更是致力於爲客戶提供真正的價值,推動 AMD 平臺的普及,並助力定義 AI 計算的新時代。我們熱烈歡迎 Brium 加入 AMD,並期待與 Brium 攜手加速創新。我們秉持着對開放性和開發者至上理唸的共同承諾,正在推動各行各業的 AI 發展,不斷突破無限可能。半導體精品公衆號推薦專注半導體領域更多原創內容關注全球半導體產業動向與趨勢*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4057期內容,歡迎關注。『半導體第一垂直媒體』實時 專業 原創 深度公衆號ID:icbank喜歡我們的內容就點“在看”分享給小夥伴哦


(本文内容不代表本站观点。)
---------------------------------
本网站以及域名有仲裁协议(arbitration agreement)。

依据《伯尔尼公约》、香港、中国内地的法律规定,本站对部分文章享有对应的版权。

本站真诚介绍香港这个「东方之珠」和「亚洲国际都会」,香港和「东方之珠」和「亚洲国际都会」是本站的业务地点名称。

本网站是"非商业"(non-commercial),没有涉及商业利益或竞争。


2025-Jun-08 11:11pm (UTC +8)
栏目列表