每日精選AI研究論文及翻譯
我們推出 GLM-5V-Turbo,這是邁向原生多模態智能體基礎模型的重要一步。隨著基礎模型在真實環境中的部署日益普及,智能體能力不僅取決於語言推理,更需具備對圖像、影片、網頁、文檔、圖形界面等異構情境的感知、解析與行動能力。GLM-5V-Turbo 正是圍繞此目標構建:多模態感知被整合為推理、規劃、工具使用與執行的核心組件,而非僅作為語言模型的附屬接口。本報告總結了 GLM-5V-Turbo 在模型設計、多模態訓練、強化學習、工具鏈擴展及智能體框架整合等方面的核心改進。這些進展使其在多模態編程、視覺工具運用及基於框架的智能體任務中表現卓越,同時保持具有競爭力的純文本編程能力。更重要的是,我們的開發過程為構建多模態智能體提供了實用見解,彰顯了多模態感知、層次化優化與可靠端到端驗證的關鍵作用。
生成多樣化回應對於大型語言模型(LLM)的測試時擴展至關重要,然而標準的隨機取樣通常僅產生表層詞彙變化,限制了語義探索的深度。本文提出探索性取樣(ESamp),一種在生成過程中顯式鼓勵語義多樣性的解碼方法。ESamp的動機源於一個廣為人知的觀察:神經網絡對類似過往遭遇的輸入往往能做出低誤差預測,而對新穎輸入則會產生較高預測誤差。基於此特性,我們在測試時訓練一個輕量級蒸餾器,通過LLM的淺層表徵預測其深層隱藏表徵,從而建模LLM的深度方向表徵轉換。在解碼過程中,蒸餾器持續適應當前生成上下文誘導的映射關係。ESamp將預測誤差作為新穎性信號,對基於當前前綴的候選詞元擴展進行重新加權,從而將解碼偏向於未被充分探索的語義模式。ESamp採用異步訓練-推理流水線實現,最壞情況下開銷低於5%(優化版本為1.2%)。實證結果表明,ESamp能顯著提升推理模型的Pass@k效率,表現優於或媲美強力的隨機與啟發式基線。值得注意的是,ESamp在數學、科學和代碼生成基準測試中展現出穩健的泛化能力,並打破了創意寫作中多樣性與連貫性的權衡取捨。我們的程式碼已發佈於:https://github.com/LinesHogan/tLLM。
我們提出 RADIO-ViPE(融合多域於一體——影片姿態引擎),這是一款線上語義SLAM系統,能實現幾何感知的開放詞彙定位,將任意自然語言查詢與動態環境中局部化的3D區域及物件建立關聯。與現有需要標定化、帶姿態的RGB-D輸入的方法不同,RADIO-ViPE直接處理原始單目RGB影片串流,無需預先取得相機內參、深度感測器或姿態初始化。該系統緊密耦合源自聚合式基礎模型(如RADIO)的跨模態嵌入(涵蓋視覺與語言)與幾何場景資訊,此耦合機制貫穿初始化、優化及因子圖連接階段,以提升多模態地圖的一致性。優化過程封裝於自適應魯棒核函數內,專為處理主動移動物體與智能體位移的場景元素(例如在自我中心視角下被重新擺放的傢俱)而設計。實驗表明,RADIO-ViPE在動態TUM-RGBD基準測試中達到頂尖水準,同時在依賴標定數據與靜態場景假設的離線開放詞彙方法面前保持競爭力。RADIO-ViPE彌補了現實應用中的關鍵缺口,為自主機器人系統與無約束實境影片串流實現了強健的開放詞彙語義定位。專案頁面:https://be2rlab.github.io/radio_vipe
爪式環境支援針對本地文件、工具及持久化工作區狀態的多步驟工作流程。然而由於缺乏系統性框架的支撐,特別是能夠合成可驗證訓練數據並將其與智能體訓練及診斷評估相整合的框架,這類環境的可擴展開發仍受限。為解決此問題,我們提出ClawGym——一個支援爪式個人智能體全生命週期開發的可擴展框架。具體而言,我們構建了ClawGym-SynData數據集,該數據集包含1.35萬個經篩選的合成任務,這些任務源自人物畫像驅動的意圖與技能錨定操作,並配備了擬真模擬工作區及混合驗證機制。我們隨後通過對黑盒推演軌跡進行監督式微調,訓練出系列高性能爪式模型(命名為ClawGym-Agents),並基於跨任務沙箱的並行化推演輕量級管道進一步探索強化學習。為支持可靠評估,我們還構建了ClawGym-Bench基準測試集,包含200個經自動化篩選與人機協同校準的實例。相關資源將於近期在https://github.com/ClawGym發布。
擴散式大型語言模型(dLLMs)具備平行解碼與雙向上下文處理優勢,但當前頂尖的dLLMs需耗費數十億參數才能達到競爭性表現。現有dLLMs蒸餾方法雖能於單一架構內減少推理步驟,卻皆未解決跨架構知識遷移的挑戰——即教師模型與學生模型在架構、注意力機制和分詞器上存在差異。我們提出首個跨架構dLLMs蒸餾框架TIDE,其包含三個模組化組件:(1)TIDAL機制,根據教師模型對雜訊的依賴性可靠度,同步調控訓練進程與擴散時間步的蒸餾強度;(2)CompDemo策略,透過互補掩碼分割強化教師模型的上下文表達,提升高掩碼率下的預測品質;(3)Reverse CALM目標函數,反轉區塊層級似然匹配的跨分詞器優化方法,產生有界梯度與雙端雜訊過濾效果。透過兩條異質流水線將80億參數稠密模型與160億參數混合專家模型蒸餾至6億參數學生模型,在八項基準測試中平均超越基線1.53分,其中程式碼生成任務表現尤為突出:HumanEval分數達48.78,相較自迴歸基線的32.3分實現顯著提升。
可控擴散方法顯著提升了擴散模型的實用價值,但現有方案通常以相互孤立的專用系統形式存在,具有互不相容的訓練流程、參數格式和運行時掛鈎。這種碎片化現狀導致難以跨任務復用基礎設施、跨骨幹網絡遷移能力,或在單一生成管道中組合多種控制條件。我們提出「擴散模板」——一個統一開源的插件框架,通過將基礎模型推理與可控能力注入解耦來解決上述問題。該框架包含三個核心組件:將任意任務特定輸入映射為中間能力表徵的模板模型、作為標準化能力注入接口的模板緩存,以及負責加載、融合並將多個模板緩存注入基礎擴散運行時的模板管道。由於接口定義在系統層面而非綁定特定控制架構,KV緩存與LoRA等異構能力載體可在同一抽象層下獲得支持。基於此設計,我們構建了覆蓋結構控制、亮度調節、色彩調整、圖像編輯、超分辨率、銳化增強、美學對齊、內容參照、局部修復和年齡控制的多樣化模型庫。案例研究表明,擴散模板能在保持模塊化、可組合性與實踐可擴展性的同時,統一各類可控生成任務,並適應快速迭代的擴散模型骨幹網絡。所有資源包括代碼、模型和數據集均將開源。
大型語言模型正日益被部署為自主代理的決策核心,這些代理能夠在外部環境中實現改變。然而,在模擬現實世界以客戶為中心的問題解決場景的對話基準測試中,這些代理經常因錯誤決策的連鎖效應而失敗。這些挑戰對於參數規模較小、上下文窗口有限且推理預算受限的開源LLM尤為顯著,這些限制加劇了代理場景中的錯誤積累。為應對這些挑戰,我們提出了故障感知元代理(FAMA)框架。FAMA分兩個階段運作:首先分析基線代理的故障軌跡以識別最常見的錯誤;其次採用協調機制,在決策步驟前啟動針對性配置的專業代理最小子集,通過注入定向上下文來輔助工具使用代理。在開源LLM上的實驗表明,該框架在各評估模式下相較標準基線實現了最高27%的性能提升。這些結果凸顯了通過專業代理針對常見故障進行定向上下文策展,是構建模擬現實對話場景的可靠多輪工具使用型LLM代理的重要設計原則。
我們提出X-WAM——一個統一4D世界模型,通過單一框架實現實時機器人動作執行與高保真4D世界合成(視頻+3D重建)的統一,克服了先前統一世界模型(如UWM)僅建模二維像素空間且難以平衡動作效率與世界建模品質的關鍵侷限。為利用預訓練視頻擴散模型的強大視覺先驗,X-WAM通過預測多視角RGB-D視頻來構想未來世界,並通過輕量級結構適配高效獲取空間信息:將預訓練擴散變換器的最後幾個模塊複製到專用深度預測分支中,用於重建未來空間信息。此外,我們提出異步噪聲採樣(ANS)來聯合優化生成品質與動作解碼效率。ANS在推理階段採用專用的異步去噪調度策略,以更少步數快速解碼動作實現高效實時執行,同時保留完整步數序列生成高保真視頻。ANS並非在訓練中完全解耦時間步,而是從其聯合分佈中採樣以對齊推理分佈。基於超過5,800小時機器人數據的預訓練,X-WAM在RoboCasa和RoboTwin 2.0基準測試中分別達到79.2%和90.7%的平均成功率,其產出的高保真4D重建與生成結果在視覺和幾何指標上均超越現有方法。
前沿語言模型的強化學習後訓練正日益受制於自迴歸式展開生成過程,這使得展開加速成為核心系統挑戰。現有許多效率提升方法通過改變展開或優化機制來提高吞吐量,例如採用離策略執行、經驗回放或低精度生成。我們研究將推測解碼作為強化學習展開的無損加速原語,該技術能保持目標模型的輸出分佈。我們在搭載vLLM後端的NeMo-RL中實現了推測解碼,支持同步與異步流水線,並能在強化學習展開過程中進行推測。此優勢可適用於多種推測機制,例如預訓練的MTP頭、小型外部草稿模型,乃至傳統上在強化學習階段後應用的Eagle3等技術。這為在強化學習訓練內部實現尖端推測解碼技術提供了部署路徑。在80億參數規模的同步強化學習推理後訓練工作負載中,推測解碼可將展開吞吐量提升1.8倍。通過高保真性能模擬器,我們預測在2350億參數規模下,結合推測解碼與異步強化學習可實現最高2.5倍的端到端訓練加速。
本研究聚焦于自主语言模型代理的可靠性问题,该代理系统能在真实资本环境下将用户指令转化为经验证的工具操作。实验场景为DX Terminal Pro平台——一项为期21天的实际部署,期间3,505个用户注资的代理程序在受约束的链上市场中进行了真实ETH交易。用户通过结构化控件和自然语言策略配置金库,但仅有代理可执行常规买卖交易。系统累计产生750万次代理调用、约30万次链上操作、约2000万美元交易量、逾5000枚ETH部署量、约700亿推理令牌,且策略验证通过的提交交易结算成功率达99.9%。长期运行的代理积累了数千次序列决策,其中持续活跃代理的提示-状态-行动循环超6000次,形成了从用户指令到提示生成、推理验证、组合状态及结算的全链路大规模轨迹。可靠性并非仅源自基础模型,而是孕育于模型周边的操作层:提示编译、类型化控件、策略验证、执行防护、内存设计和轨迹级可观测性。上线前测试暴露了纯文本基准测试难以衡量的故障模式,包括虚构交易规则、手续费瘫痪、数值锚定、节律交易和代币经济误读等。针对性架构调整使受影响测试群体中虚构卖出规则发生率从57%降至3%,手续费主导的观察值从32.5%降至10%以下,资本部署率从42.9%提升至78.0%。研究表明,管理资本的代理系统应沿用户指令→提示生成→验证操作→结算的全路径进行综合评估。
用户模拟因其在广泛应用领域的支撑潜力,长期以来在计算机科学中扮演着关键角色。语言作为人类沟通的主要媒介,构成了社会互动与行为的基础。因此,对话行为模拟已成为重要研究领域。大型语言模型的最新进展通过实现高保真度的合成用户对话生成,显著推动了该领域的发展。本文系统梳理了基于大语言模型的对话式用户模拟研究进展,提出了涵盖用户粒度与模拟目标的新型分类框架,并深入剖析了核心技术与评估方法。我们旨在帮助学界及时把握对话式用户模拟的最新动态,通过揭示开放挑战并将现有研究整合至统一框架,进一步推动未来研究发展。
标准文本转语音(TTS)评估通常关注可懂度(WER、CER)和整体自然度(MOS、UTMOS),但未量化口音问题。一个合成器可能在所有四项指标表现优异,却在目标语言中具有音位价值的特征上呈现非母语感。对印度语言而言,这些特征包括卷舌发音、送气音、元音长度及泰米尔语卷舌近音(字母zha)。我们提出PSP(音素替换剖面)——一个可解释的、按音系维度划分的印度语TTS口音基准。PSP将口音分解为六个互补维度:卷舌音坍缩率(RR)、送气音保真度(AF)、元音长度保真度(LF)、泰米尔语zha音保真度(ZF)、弗雷谢特音频距离(FAD)及韵律特征离散度(PSD)。前四项通过强制对齐结合基于Wav2Vec2-XLS-R第9层嵌入的母语者声学中心点进行测量;后两项为语料库级分布距离。在v1版本中,我们对四款商业及开源系统(ElevenLabs v3、Cartesia Sonic-3、Sarvam Bulbul、Indic Parler-TTS)在印地语、泰卢固语和泰米尔语试点集上开展基准测试,并额外纳入第五款系统(Praxy Voice)进行三语种测试,同时包含泰卢固语R5→R6的案例研究。主要发现:(1)卷舌音坍缩率随音系难度单调递增:印地语<泰卢固语<泰米尔语(约1%、40%、68%);(2)PSP排序与WER排序存在分歧——商业系统的WER领先者未在卷舌音或韵律保真度上全面占优;(3)无一系统能在六维度上实现帕累托最优。我们开源了母语参考声学中心点(每语言500条音频)、1000条音频的FAD嵌入特征、500条音频的PSD韵律特征矩阵、每语言300条语句的黄金数据集、MIT许可的评分代码及CC-BY许可的声学中心点。正式MOS相关性分析将留待v2版本;v1版本报告了五项内部一致性信号及母语音频的完整性验证。
商用TTS系统能生成接近母语水平的印度语系音频,但顶尖开源基础模型(Chatterbox、Indic Parler-TTS、IndicF5)在音系维度评测中仍存差距,其中应用最广的多语言基础模型(Chatterbox支持23种语言)甚至无法对泰卢固语和泰米尔语进行分词。我们探究:在不训练新声学解码器、不使用任何商用TTS训练数据的前提下,需要何种最小干预能使这类非印度语系基础模型对泰卢固语、泰米尔语和印地语产生商用级输出?我们整合了三项技术:(1)BUPS——一个婆罗米系统一音素空间,能将七种印度文字确定性罗马化为ISO-15919格式,使Chatterbox的拉丁语分词器可处理;(2)仅针对文本标记预测器(Chatterbox的t3模块)训练的LoRA适配器,使用约1,220小时授权印度语系音频数据,并采用印地语代理语言标识;(3)语音提示恢复方案——通过8-11秒同语言参考片段与三项采样参数重置(夸张度0.7、温度0.6、最小概率0.1,即"配置B"),无需声学解码器训练即可恢复商用级声学输出。对于印地语,LoRA会降低准确率,故改用原始Chatterbox+配置B方案,形成双分支部署。通过配套PSP基准测试对10语句试点集评估,Praxy Voice达到或略超商用基线:泰卢固语卷舌音塌陷率26.7%(对比Sarvam Bulbul的33.3%),泰米尔语zha音塌陷率71%(对比商用三组系统的86%),印地语LLM-WER指标0.025(与Cartesia Sonic-3持平)。针对句内语码混合场景,我们新增第三分支(IndicF5+原生文字转写方案),将印地语/泰卢固语/泰米尔语的语码混合LLM-WER从0.80-0.85降至0.14-0.27。我们开源了R6版LoRA权重(Apache-2.0协议)、推理代码与路由器(MIT协议)以及Gradio演示界面。
時尚人工智能系統通常會對特定品牌、時尚編輯及歷史時期的審美邏輯進行編碼卻不予公開。我們提出FASH-iCNN多模態系統,該系統基於1991至2024年間15個時尚品牌的87,547張《Vogue》秀場圖像進行訓練,使這種文化邏輯可被檢視。當輸入服裝照片時,系統能識別其出品品牌、所屬時代及色彩傳統。純服裝模型在14個品牌中的品牌識別top-1準確率達78.2%,十年期時代識別準確率88.6%,34個年份的具體年份識別準確率58.3%(平均誤差僅2.2年)。通過探析視覺信號的傳導渠道發現明顯解離現象:移除色彩僅導致品牌識別準確率下降10.6個百分點,而移除紋理則損失37.6個百分點,證實紋理與亮度是編輯審美特徵的主要載體。FASH-iCNN將編輯文化視為核心信號而非背景噪聲,能標註影響每個輸出的具體品牌、時代與色彩傳統,使用戶不僅能看到系統預測結果,更能解讀編碼於預測中的品牌傳承、編輯理念與歷史印記。
视觉规划作为人类智能的关键维度,在需要复杂空间推理与导航的任务中尤为重要。然而在机器学习领域,这一本质上的视觉问题却常被置于以语言为核心的框架下解决。尽管近期研究展现了全视觉方法的潜力,但由于其采用逐步生成的规划范式,存在显著的计算效率瓶颈。本研究提出编辑即推理(EAR)新范式,将视觉规划重构为单步图像转换任务。为剥离视觉识别对内在推理的影响,我们采用抽象谜题作为探测任务,并构建了AMAZE程序化生成数据集——该数据集包含经典迷宫问题和皇后问题,涵盖两种互补的视觉规划形式。AMAZE的抽象特性还支持对自回归和扩散模型进行像素级保真度与逻辑有效性的自动化评估。通过对主流专有及开源编辑模型的测试发现:所有模型在零样本设置下均表现不佳,但在基础尺度上进行微调后,能显著泛化至更大域内尺度及跨域尺度与几何结构。值得注意的是,即便在高端硬件上运行的最佳模型,其零样本效率仍无法媲美人类解题者,这揭示了神经视觉推理领域持续存在的差距。
联邦学习(FL)是一种分布式机器学习方法,允许多个设备在中央服务器管理下协作训练模型而无需共享底层数据。FL面临的关键挑战之一是因设备间连接速度和带宽差异造成的通信瓶颈,因此必须减少训练过程中的传输数据量。此外,训练过程中存在通过模型或梯度分析暴露敏感信息的潜在风险。为同时解决隐私保护和通信效率问题,我们结合差分隐私(DP)与自适应量化方法:采用基于拉普拉斯机制的DP技术保障隐私(该方法在FL研究中相对未被充分探索,且比高斯机制DP提供更严格的隐私保证);提出基于轮次的余弦退火全局位长调度器,以及通过数据集熵分析估计客户端贡献度实现动态调整的客户端调度器。我们在CIFAR10、MNIST和医学影像数据集上进行了广泛实验,测试了不同客户端数量、位长调度策略和隐私预算下的非独立同分布数据场景。结果表明:相较于32位浮点训练,自适应量化方法在保持竞争性模型精度并通过差分隐私确保强隐私保护的同时,使MNIST总通信数据量降低52.64%,CIFAR10降低45.06%,医学影像数据集降低31%至37%。
联邦学习是一种在中央服务器协调下,多个设备协同训练模型并确保数据隐私的机器学习范式。然而,冗余样本、恶意样本及异常样本常导致模型性能下降和效率低下。为解决这些问题,我们提出面向图像分类的新型样本选择方法,采用多任务自编码器通过损失值和特征分析来评估样本贡献度。该方法融合无监督异常检测技术,由中央服务器调度单类支持向量机(OCSVM)、隔离森林(IF)和自适应损失阈值(AT)方法,以过滤客户端中的噪声样本。我们还提出由中央服务器调控的多类别深度支持向量数据描述(SVDD)损失函数,以增强基于特征的样本选择能力。我们在CIFAR10和MNIST数据集上验证了所提方法,涵盖不同客户端数量、非独立同分布数据场景以及高达40%的噪声水平。实验表明:基于损失值的样本选择能显著提升准确率,在CIFAR10数据集上使用OCSVM方法最高提升7.02%,在MNIST数据集上使用AT方法最高提升1.83%;此外,联邦SVDD损失函数进一步优化了基于特征的样本选择,在CIFAR10数据集上结合OCSVM方法可实现0.99%的准确率提升。这些结果证明了我们的方法在不同客户端规模和噪声条件下提升模型准确率的有效性。