每日精選AI研究論文及翻譯
在嚴格控制的預訓練設定下,我們觀察到一個交叉現象:當獨特數據有限時,擴散語言模型(DLM)通過增加訓練週期數,能持續超越自迴歸(AR)模型。這種交叉點會隨數據量增加或質量提升而延後出現,隨模型規模擴大而提前出現,並在稠密與稀疏架構中均保持穩定。我們將此優勢歸因於三個疊加因素:(1) 任意順序建模能力,(2) 迭代式雙向去噪帶來的超密集計算效應,以及(3) 內建的蒙地卡羅數據增強;雖然輸入噪聲或參數噪聲能改善數據受限下的AR模型表現,但無法彌合差距。大規模實驗中,一個17億參數的DLM在消耗約1.5兆token的計算預算、使用100億獨特Python token訓練後,性能超越了在嚴格匹配設定下訓練的AR編程模型。此外,一個10億參數的DLM僅使用10億token進行標準預訓練數據重複訓練,無需特殊技巧即可在HellaSwag達到超過56%的準確率,在MMLU超過33%。我們還證實,在此機制下,驗證集交叉熵的上升並不意味著下游任務性能的退化。
由於缺乏有效的跨模態建模,現有開源音視頻生成方法常存在唇形同步失真與語義一致性不足的問題。為解決這些缺陷,我們提出UniAVGen——一個面向音視頻聯合生成的統一框架。該框架採用雙分支聯合合成架構,通過兩個並行的擴散轉換器構建連貫的跨模態潛在空間。其核心在於非對稱跨模態交互機制,該機制實現雙向且時序對齊的跨注意力計算,從而確保精確的時空同步與語義一致性。此外,我們通過面部感知調製模塊增強跨模態交互,該模塊能動態優化交互過程中的顯著區域權重。為提升推理階段的生成保真度,我們進一步提出模態感知分類器自由引導策略,這種新方法能顯著強化跨模態關聯信號。值得注意的是,UniAVGen的強健聯合合成設計使其能將關鍵音視頻任務無縫整合於單一模型,包括音視頻聯合生成與續寫、視頻到音頻的配音以及音頻驅動的視頻生成。綜合實驗表明,在訓練樣本量大幅減少的情況下(130萬對比3010萬),UniAVGen在音視頻同步性、音色一致性與情感一致性方面均展現出綜合優勢。
儘管近期利用大型語言模型(LLM)自動生成3D場景取得進展,但生成場景往往缺乏現實環境中真實的空間佈局與物件屬性。此問題根源在於指導指令過於粗略、細節不足,因此推進以反映真實環境的細粒度指令來引導3D場景合成變得至關重要。若缺乏此類真實場景,在不現實環境中訓練具身智能體會導致其學習到與現實世界物理規律及語義嚴重偏離的先驗知識,從而降低實際部署時的表現。因此,驗證細粒度指令與生成場景間的對齊程度對於有效學習至關重要。然而現有評估方法(如CLIPScore和視覺語言模型)往往難以可靠評測此類對齊關係,主因在於其對3D場景的理解流於表面,常導致場景組件缺乏紮實的基礎定位。為此,我們提出LEGO-Eval評估框架,該框架配備多樣化工具,能顯式錨定場景組件,從而實現更精準的對齊評估。我們同時發布LEGO-Bench基準數據集,包含針對真實環境複雜佈局與屬性的細粒度指令集。實驗表明,LEGO-Eval在場景-指令對齊評估中的F1分數較「VLM即評判」方法提升0.41。通過LEGO-Bench的基準測試,我們發現現有生成方法存在明顯局限:在所有評估方法中,能完全符合細粒度指令的場景生成成功率最高僅達10%。
當前對大型語言模型(LLM)代理的評估主要側重於任務完成度,往往忽略資源效率與適應性。這種評估盲點忽略了一項關鍵能力:代理在環境變化時制定並調整成本最優化方案的能力。為彌補這一缺口,我們提出CostBench——一個可擴展的成本導向基準測試框架,旨在評估代理的經濟推理與重規劃能力。該框架以旅行規劃領域為應用場景,包含可通過多種原子工具與複合工具序列解決的任務,且各工具具備多樣化、可自訂的成本屬性。CostBench還支持四類動態阻斷事件(如工具故障與成本變動),以模擬現實世界的不確定性,促使代理進行即時適應。通過對領先開源模型與專有模型進行CostBench測試,我們發現成本感知規劃存在顯著缺陷:代理在靜態環境中常無法識別成本最優解,即便GPT-5在最難任務上的精確匹配率也低於75%,而在動態條件下性能進一步下降約40%。透過診斷這些弱點,CostBench為開發兼具經濟合理性與魯棒性的下一代代理奠定了基礎。
表格資料仍是現實應用的主流格式。然而由於異質特徵類型和多尺度複雜交互作用的存在,開發有效的表格資料神經模型仍具挑戰。近期表格上下文學習技術(如TabPFN和TabICL)的進展,已能在無需任務特定微調的情況下達到與梯度提升樹相當的頂尖性能。但現有架構存在三大侷限:(1) 單尺度特徵處理忽視層級依賴關係;(2) 稠密注意力機制存在表格寬度的二次方複雜度;(3) 嚴格順序的組件處理阻礙迭代表徵優化與跨組件通信。為解決這些難題,我們提出Orion-MSP表格上下文學習架構,具備三大創新:(1) 多尺度處理機制捕捉層級特徵交互;(2) 融合窗口化、全局與隨機模式的塊稀疏注意力,實現可擴展效率與長程關聯;(3) 感知器風格記憶模組確保組件間安全的雙向信息流。在多樣化基準測試中,Orion-MSP在有效擴展至高維表格的同時,達到或超越現有頂尖性能,為高效表格上下文學習樹立新標杆。模型已開源於 https://github.com/Lexsi-Labs/Orion-MSP 。
表格基礎模型代表了結構化資料學習的新興範式,將大規模預訓練的優勢擴展至表格資料領域。然而,由於異質化的預處理流程、碎片化的應用程式介面、不一致的微調程序,以及缺乏針對部署指標(如校準度與公平性)的標準化評估,其應用仍受限。我們提出TabTune——一個透過單一介面標準化表格基礎模型完整工作流程的統一函式庫。TabTune提供七種支援多種適應策略的尖端模型,包含零樣本推理、元學習、監督式微調及參數高效微調。該框架自動化模型感知的預處理流程,內部管理架構異質性,並整合效能、校準度與公平性的評估模組。TabTune以可擴展性與可重現性為設計核心,能對表格基礎模型的適應策略進行一致性基準測試。本函式庫為開源項目,可於 https://github.com/Lexsi-Labs/TabTune 取得。
對運動學結構與可動組件的深入理解,對於實現機器人操縱物體及建模自身關節化形態至關重要。這種理解透過關節化物件來體現,其在物理模擬、運動規劃與策略學習等任務中不可或缺。然而建立這類模型(特別是針對高自由度物件)仍是重大挑戰。現有方法通常依賴運動序列或人工標註數據集的強假設,這限制了其擴展性。本文提出Kinematify——能直接從任意RGB影像或文字描述自動生成關節化物件的框架。我們的方法解決兩大核心難題:(i)推斷高自由度物件的運動學拓撲結構;(ii)從靜態幾何體估算關節參數。為實現此目標,我們結合MCTS搜尋進行結構推論,並透過幾何驅動優化實現關節推理,最終生成物理一致且功能有效的描述。我們在合成與真實環境的多樣化輸入上評估Kinematify,結果顯示其在配準精度與運動學拓撲準確性方面均超越既有方法。
大型語言模型(LLM)在各類基準測試中表現優異——從知識問答、數學推理到網絡代理任務——但這些測試均處於靜態環境中,缺乏真實的動態性與不確定性。因此,它們評估的是孤立推理或問題解決能力,而非不確定情境下的決策能力。為解決此問題,我們推出LiveTradeBench:一個用於在真實演變市場中評估LLM代理的實時交易環境。該平台遵循三項設計原則:(一)即時串流市場價格與新聞數據,擺脫對離線回測的依賴,避免資訊洩漏,同時捕捉實時不確定性;(二)採用投資組合管理抽象架構,將控制範圍從單一資產操作擴展至多資產配置,整合風險管理與跨資產推理能力;(三)跨市場評估機制,涵蓋結構迥異的美股與Polymarket預測市場,兩者在波動性、流動性及資訊流動方面存在顯著差異。在每個決策步驟中,代理需觀察價格、新聞及自身投資組合,隨後輸出能平衡風險與收益的百分比配置方案。通過LiveTradeBench,我們對21個不同系列的大型語言模型進行了為期50天的實時評估。結果表明:(1)高LMArena分數並不意味著更優的交易結果;(2)模型展現出反映風險偏好與推理動態的獨特投資組合風格;(3)部分LLM能有效利用實時信號調整決策。這些發現揭示了靜態評估與現實世界能力之間的落差,推動需建構能測試即時不確定性下序列決策能力與穩定性的基準體系。
隨著推理模型規模的快速擴展,多模態在人類認知中的核心作用日益凸顯,這驅使人們愈發需要探究以視覺為核心的認知行為。然而,現有的多模態基準要麼過度側重文本推理,要麼未能系統性地捕捉以視覺為中心的認知行為,導致對多模態大語言模型認知能力的評估尚不充分。為解決這一局限,我們提出MME-CC(多模態認知能力評估基準),該視覺基礎基準將11項代表性推理任務歸類為空間推理、幾何推理與知識推理三大視覺信息基礎範疇,並對多模態大語言模型在各維度的認知能力進行細粒度分析。基於MME-CC,我們對16個代表性多模態大語言模型展開廣泛實驗。研究發現:閉源模型目前整體領先(如Gemini-2.5-Pro得分42.66,GLM-4.5V得分30.45),而空間與幾何推理能力普遍薄弱(≤30%)。我們進一步歸納出常見錯誤模式,包括方向辨識失誤、跨視角身份一致性脆弱、反事實指令遵循能力差等,並觀察到思維鏈通常遵循「提取→推理→驗證」的三階段流程,且高度依賴視覺信息提取。本研究期望推動學界將多模態大語言模型的認知能力作為評估與模型設計的核心維度。
我们重新审视语言模型推理的测试时扩展策略,并探讨一个根本性问题:在同等令牌预算和计算资源下,究竟是运行多个独立并行链更优,还是运行较少链但通过序列化步骤迭代优化更佳?通过对5个前沿开源模型和3个具有挑战性的推理基准进行全面评估,我们发现采用显式基于先前尝试的序列化扩展策略,在95.6%的配置中持续优于主流的并行自洽解码范式,准确率最高提升46.7%。此外,我们提出逆熵加权投票法——一种无需训练的新方法,可进一步提升序列化扩展的准确率。该方法通过按推理链逆熵比例加权答案,在超越并行多数投票法的基础上将成功率进一步提升,确立了其作为最优测试时扩展策略的地位。我们的研究结果从根本上挑战了自Wang等人提出自洽解码以来主导测试时扩展的并行推理范式,将序列优化定位为现代大语言模型推理的稳健默认方案,这要求我们在推理时优化方法上进行范式转变。
協作對話依賴參與者逐步建立共同基礎,但在非對稱情境中,雙方可能自以為達成共識,實際指涉的卻是不同實體。我們為HCRC地圖任務語料庫(Anderson等人,1991)引入視角主義標註框架,分別捕捉每個指稱表達中說話者與受話者的落地詮釋,從而追蹤理解如何隨時間推移形成、分化與修復。通過採用框架約束的大語言模型標註流程,我們獲得1.3萬個帶可信度評估的指稱表達標註,並分析由此產生的理解狀態。結果表明:當詞彙變體統一後,完全誤解較為罕見,但多重性差異會系統性引發理解分歧,揭示表面共識可能掩蓋指稱錯位。本框架既為研究落地性誤解提供資源與分析視角,也為評估(視覺)大語言模型在協作對話中建模視角依賴性落地的能力奠定基礎。
查询增强技术通过向查询附加额外信息来提升查询的语义完整性,从而更有效地检索相关文档。当前研究提出了基于大语言模型(LLM)的嵌入器,这类模型通过利用LLM的生成能力,以多任务方式同时学习嵌入表示和查询增强生成。在推理阶段,这些联合训练的嵌入器会先执行查询增强再进行嵌入操作,展现出显著效果。然而,对所有查询进行增强会导致嵌入延迟大幅增加,且某些查询的增强反而会损害检索性能。此外,现有方法尚未在多模态环境中进行探索。为解决这些问题,我们提出M-Solomon——一种能自适应判断何时进行查询增强的通用多模态嵌入器。我们的方法首先在数据集层面将训练集中的查询划分为两类:需要增强的查询与无需增强的查询。随后通过引入基于强大多模态大语言模型(MLLM)的合成流程,为需要增强的查询生成合适的增强内容。接着我们提出自适应查询增强机制:通过学习为需要增强的查询生成带有"/augment"前缀的合成增强内容,而为其他查询生成简单字符串"/embed",M-Solomon可实现按需增强。实验结果表明,M-Solomon不仅大幅超越无增强的基线模型,其性能也优于全程使用增强的基线模型,同时显著降低了嵌入延迟。
理解当前AI科学家系统的能力与风险,对于确保可信且可持续的AI驱动科研进程、同时维护学术生态系统的完整性至关重要。为此,我们开发了Jr. AI Scientist——一个模拟初级学生研究者核心科研流程的先进自主AI科学家系统:在获得人类导师提供的基线论文后,该系统能分析其局限性,提出改进的创新假设,通过严谨实验进行验证,并撰写成果论文。与以往假定全自动化或仅处理小规模代码的方法不同,Jr. AI Scientist遵循明确的研究流程,利用现代代码智能体处理复杂的多文件实现,最终产出具有科学价值的成果。在评估方面,我们采用AI评审员进行自动化评估、作者主导评估,并向专注于AI驱动科研的Agents4Science平台投稿。结果表明,Jr. AI Scientist生成的论文评审分数优于现有全自动化系统。然而,通过作者评估和Agents4Science评审,我们也发现了当前AI科学家系统直接应用存在的重大局限性与潜在风险,这些将是未来研究的关键挑战。最后,我们全面报告了开发过程中识别的各类风险,希望这些发现能深化学界对AI科学家发展现状与风险的理解。