新浪科技訊 8月12日下午消息,發(fā)布在2025金融AI推理應(yīng)用落地與發(fā)展論壇上,推理吞吐n推華為聯(lián)合中國銀聯(lián)共同發(fā)布AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器),創(chuàng)新實現(xiàn)高吞吐、技術(shù)低時延的現(xiàn)高推理體驗。 在當(dāng)今數(shù)字化時代,低時低AI發(fā)展日新月異。延推驗降大模型訓(xùn)練的理體理成熱潮尚未消退,AI推理體驗卻已悄然成為AI應(yīng)用的發(fā)布關(guān)鍵。中信建投在2025WAIC期間發(fā)布的推理吞吐n推白皮書指出,AI正從訓(xùn)練向推理的創(chuàng)新結(jié)構(gòu)性轉(zhuǎn)變而快速增長。在這樣的技術(shù)大背景下,AI推理體驗的現(xiàn)高重要性愈發(fā)凸顯。 推理體驗直接關(guān)系到用戶與AI交互時的低時低感受,包括回答問題的延推驗降時延、答案的準確度以及復(fù)雜上下文的推理能力等方面。資料顯示,國外主流模型的單用戶輸出速度已進入200 Tokens/s區(qū)間(時延5ms),而我國普遍小于60Tokens/s(時延50 - 100ms),如何解決推理效率與用戶體驗的難題迫在眉睫。 據(jù)介紹,華為此次發(fā)布的AI推理創(chuàng)新技術(shù)UCM(推理記憶數(shù)據(jù)管理器),作為一款以KV Cache為中心的推理加速套件,其融合了多類型緩存加速算法工具,分級管理推理過程中產(chǎn)生的KV Cache記憶數(shù)據(jù),擴大推理上下文窗口,以實現(xiàn)高吞吐、低時延的推理體驗,降低每Token推理成本。 海量資訊、精準解讀,盡在新浪財經(jīng)APP 責(zé)任編輯:郭栩彤 |
利物浦主場對決伯恩茅斯,豪門底蘊與中游韌性的細節(jié)博弈升級利物浦VS伯恩茅斯比賽分析《為了民族解放與世界和平——中國人民抗日戰(zhàn)爭紀念館紀事》震撼推出 — 新京報王思雨李夢轉(zhuǎn)型當(dāng)老師,WNBA戰(zhàn)術(shù)融入青訓(xùn)引發(fā)熱議!輪休韓旭、王思雨跟女籃集訓(xùn)有關(guān)?李夢落單后劃水,今晚會輪休嗎從一拳開始,盤點至高綜漫世界!王興興:人形機器人每個月都在進步,目前離老百姓還有點遠 — 新京報陳方別光氣得發(fā)火,從王藝竹沒落,看施海榮讓張常寧休息鍛煉新人曝光scp,從諸光與諸暗開始!宇樹獲得400米冠軍,全場唯一自主完賽選手天工包攬亞軍和季軍 — 新京報