每日精選AI研究論文及翻譯
我們提出了DuPO,這是一個基於雙重學習的偏好優化框架,它通過廣義對偶性生成無需註釋的反饋。DuPO解決了兩個關鍵限制:一是“帶可驗證獎勵的強化學習(RLVR)”對昂貴標籤的依賴及其僅適用於可驗證任務的限制;二是傳統雙重學習僅限於嚴格雙重任務對(如翻譯與回譯)的約束。具體而言,DuPO將主任務的輸入分解為已知與未知部分,隨後構建其對偶任務,利用主任務輸出及已知信息重建未知部分(例如,反轉數學解答以恢復隱藏變量),從而拓寬了對非可逆任務的適用性。此重建的質量作為自監督獎勵來優化主任務,與大語言模型(LLMs)通過單一模型實例化雙任務的能力相得益彰。實驗表明,DuPO在多樣任務上取得了顯著提升:在756個翻譯方向上平均提升了2.13 COMET的翻譯質量,在三個數學推理挑戰基準上平均提高了6.4個百分點的準確率,並作為推理時重排序器提升了9.3個百分點的性能(以計算換取精度)。這些成果使DuPO成為一種可擴展、通用且無需註釋的大語言模型優化範式。
未來預測對於大型語言模型(LLM)代理而言是一項複雜的任務,需要高度的分析思維、信息收集、情境理解以及在不确定性下的決策能力。代理不僅需要收集和解讀大量動態信息,還需整合多樣化的數據源,權衡不確定性,並根據新興趨勢調整預測,正如人類專家在政治、經濟和金融等領域所做的那樣。儘管其重要性不言而喻,但目前尚無大規模的基準來評估代理在未來預測方面的表現,這主要是由於處理實時更新和獲取及時準確答案的挑戰。為此,我們推出了FutureX,這是一個專為執行未來預測任務的LLM代理設計的動態實時評估基準。FutureX是最大且最多樣化的未來預測實時基準,支持每日實時更新,並通過自動化的問題收集和答案採集管道消除數據污染。我們評估了25個LLM/代理模型,包括具備推理、搜索能力以及整合外部工具(如開源的深度研究代理和閉源的深度研究模型)的模型。這一全面評估旨在衡量代理在動態環境中的適應性推理和表現。此外,我們還深入分析了代理在面向未來的任務中的失敗模式和性能缺陷,包括對虛假網頁的脆弱性和時間有效性。我們的目標是建立一個動態、無污染的評估標準,推動LLM代理在複雜推理和預測思維方面達到專業人類分析師的水平。
大型語言模型(LLMs)在金融應用中展現出潛力,然而由於現有基準測試的不足,其在高風險領域的適用性仍未被充分證實。現有的基準測試僅依賴於分數層面的評估,用單一分數總結模型表現,這掩蓋了對模型真正掌握知識及其具體限制的細緻理解。此外,這些測試依賴的數據集僅涵蓋了金融概念的一小部分,而忽略了現實世界應用中其他關鍵要素。為彌補這些不足,我們引入了FinCDM,這是首個專為金融LLMs設計的認知診斷評估框架,它能夠在知識技能層面評估LLMs,基於模型在技能標記任務中的響應模式,識別其具備或欠缺的金融技能與知識,而非僅依賴一個聚合分數。我們構建了CPA-QKA,這是首個基於註冊會計師(CPA)考試的認知導向金融評估數據集,全面覆蓋了現實世界的會計與金融技能。該數據集由領域專家嚴格註釋,他們編寫、驗證並標註問題,確保了高水平的註釋者間一致性和細粒度的知識標籤。我們對30個專有、開源及領域特定的LLMs進行了廣泛實驗,結果表明FinCDM揭示了隱藏的知識缺口,識別了傳統基準測試忽視的稅務與監管推理等測試不足的領域,並發現了模型間的行為集群。FinCDM通過實現可解釋的、技能感知的診斷,為金融LLMs評估引入了新範式,支持更可信賴且有針對性的模型開發,所有數據集和評估腳本將公開發布,以支持進一步研究。
將3D物體重建為可編輯程序對於逆向工程和形狀編輯等應用至關重要。然而,現有方法通常依賴於有限的領域特定語言(DSLs)和小規模數據集,限制了其建模複雜幾何和結構的能力。為應對這些挑戰,我們引入了MeshCoder,這是一個新穎的框架,能夠從點雲重建複雜的3D物體為可編輯的Blender Python腳本。我們開發了一套全面的Blender Python API,能夠合成複雜的幾何形狀。利用這些API,我們構建了一個大規模的配對物體-代碼數據集,其中每個物體的代碼被分解為不同的語義部分。隨後,我們訓練了一個多模態大語言模型(LLM),將3D點雲轉換為可執行的Blender Python腳本。我們的方法不僅在形狀到代碼的重建任務中實現了卓越的性能,還通過便捷的代碼修改促進了直觀的幾何和拓撲編輯。此外,我們基於代碼的表示增強了LLM在3D形狀理解任務中的推理能力。這些貢獻共同使MeshCoder成為程序化3D形狀重建和理解的強大而靈活的解決方案。
我們介紹了Tinker,這是一個用於高保真3D編輯的多功能框架,能夠在無需針對每個場景進行微調的情況下,於單次和少量樣本模式下運作。與以往需要大量針對每個場景進行優化以確保多視圖一致性或生成數十個一致編輯輸入視圖的技術不同,Tinker僅需一兩張圖像即可提供穩健且多視圖一致的編輯結果。這一能力源自於重新利用預訓練的擴散模型,從而釋放其潛在的3D感知能力。為了推動這一領域的研究,我們策劃了首個大規模多視圖編輯數據集及數據處理流程,涵蓋多樣化的場景和風格。基於此數據集,我們開發了無需針對每個場景進行訓練即可生成多視圖一致編輯視圖的框架,該框架包含兩個新穎組件:(1) 參考多視圖編輯器:實現精確的、參考驅動的編輯,確保所有視角下的連貫性。(2) 任意視圖到視頻合成器:利用視頻擴散的時空先驗,即使從稀疏輸入也能執行高質量的場景補全和新視圖生成。通過大量實驗,Tinker顯著降低了通用3D內容創作的門檻,在編輯、新視圖合成和渲染增強任務上達到了最先進的性能。我們相信,Tinker代表了邁向真正可擴展、零樣本3D編輯的關鍵一步。項目網頁:https://aim-uofa.github.io/Tinker
模型上下文協議(Model Context Protocol)已成為連接大型語言模型與外部數據源及工具的變革性標準,迅速在各大AI供應商和開發平台中獲得廣泛採用。然而,現有的基準測試過於簡化,未能捕捉到實際應用中的挑戰,如長時程推理和龐大且陌生的工具空間。為填補這一關鍵缺口,我們推出了MCP-Universe,這是首個專門設計的綜合基準測試,旨在通過與真實世界的MCP服務器交互來評估大型語言模型在現實且困難任務中的表現。我們的基準測試涵蓋了6個核心領域,涉及11個不同的MCP服務器:位置導航、倉庫管理、財務分析、3D設計、瀏覽器自動化和網絡搜索。為確保嚴謹的評估,我們實施了基於執行的評估器,包括用於代理格式合規性的格式評估器、用於時間不變內容匹配的靜態評估器,以及自動檢索實時真實數據以應對時間敏感任務的動態評估器。通過對領先的大型語言模型進行廣泛評估,我們發現即使是如GPT-5(43.72%)、Grok-4(33.33%)和Claude-4.0-Sonnet(29.44%)這樣的頂尖模型,也表現出顯著的性能限制。此外,我們的基準測試對大型語言模型代理提出了重大的長上下文挑戰,因為輸入的令牌數量隨著交互步驟的增加而迅速增長。同時,它還引入了未知工具的挑戰,因為大型語言模型代理通常對MCP服務器的精確使用缺乏熟悉度。值得注意的是,像Cursor這樣的企業級代理也無法超越標準的ReAct框架表現。除了評估之外,我們還開源了帶有UI支持的可擴展評估框架,使研究人員和實踐者能夠無縫集成新的代理和MCP服務器,同時促進快速發展的MCP生態系統中的創新。
我們推出Nemotron-Nano-9B-v2,這是一款混合Mamba-Transformer語言模型,旨在提升推理工作負載的吞吐量,同時在與同規模模型相比時達到最先進的準確度。Nemotron-Nano-9B-v2基於Nemotron-H架構,在該架構中,傳統Transformer架構中的大部分自注意力層被替換為Mamba-2層,從而提高生成推理所需的長思維軌跡時的推理速度。我們首先使用FP8訓練配方在20萬億個token上預訓練了一個120億參數的模型(Nemotron-Nano-12B-v2-Base),然後對其進行對齊。接著,我們採用Minitron策略對模型進行壓縮和蒸餾,目標是在單個NVIDIA A10G GPU(22GiB記憶體,bfloat16精度)上實現最多128k token的推理。與現有同規模模型(如Qwen3-8B)相比,我們展示出Nemotron-Nano-9B-v2在推理基準測試中達到相當或更好的準確度,同時在8k輸入和16k輸出token等推理場景中實現高達6倍的推理吞吐量。我們將在Hugging Face上發布Nemotron-Nano-9B-v2、Nemotron-Nano12B-v2-Base和Nemotron-Nano-9B-v2-Base的檢查點,以及我們大部分的預訓練和後訓練數據集。
人工智慧(AI)正在重塑科學發現的進程,從專業的計算工具演變為自主的研究夥伴。我們將「代理科學」(Agentic Science)定位為更廣泛的「AI for Science」範式中的一個關鍵階段,在此階段中,AI系統從部分協助進展到完整的科學代理能力。得益於大型語言模型(LLMs)、多模態系統以及整合研究平台的推動,代理型AI展現出在假設生成、實驗設計、執行、分析以及迭代優化等方面的能力——這些行為曾被視為人類獨有的特質。本調查提供了跨生命科學、化學、材料科學和物理學領域的自主科學發現的領域導向回顧。我們通過一個綜合框架,將先前分散的三種視角——過程導向、自主性導向和機制導向——統一起來,該框架連接了基礎能力、核心過程以及領域特定的實現。基於此框架,我們(i)追溯了「AI for Science」的演進歷程,(ii)識別了支撐科學代理能力的五項核心能力,(iii)將發現過程建模為一個動態的四階段工作流程,(iv)回顧了上述領域中的應用案例,以及(v)綜合了關鍵挑戰與未來機遇。這項工作建立了自主科學發現的領域導向綜合,並將「代理科學」定位為推動AI驅動研究的結構化範式。
近期,擴散式大型語言模型(dLLMs)的進展為自然語言生成任務提供了一種有前景的自迴歸(AR)LLMs替代方案,其利用了全注意力機制和基於去噪的解碼策略。然而,由於這些模型龐大的參數規模和高資源需求,其在邊緣設備上的部署仍然面臨挑戰。雖然訓練後量化(PTQ)已成為壓縮AR LLMs的廣泛採用技術,但其在dLLMs中的應用仍大多未被探索。在本研究中,我們首次系統性地研究了基於擴散的語言模型的量化問題。我們首先識別了激活值異常大的激活異常值,這些異常值主導了動態範圍,對低比特量化構成了主要挑戰,因為它們使得在大多數值中保持精度變得困難。更重要的是,我們實施了最先進的PTQ方法,並在多種任務類型和模型變體上進行了全面評估。我們的分析圍繞四個關鍵維度展開:比特寬度、量化方法、任務類別和模型類型。通過這種多視角評估,我們提供了不同配置下dLLMs量化行為的實用見解。我們希望我們的研究結果能為未來高效dLLM部署的研究奠定基礎。所有代碼和實驗設置將被公開以支持社區。
我們推出RynnEC,這是一款專為具身認知設計的視頻多模態大語言模型。基於通用視覺-語言基礎模型,RynnEC整合了區域編碼器與遮罩解碼器,實現了靈活的區域級視頻交互。儘管架構緊湊,RynnEC在物體屬性理解、物體分割及空間推理方面達到了業界領先水平。從概念上講,它為具身代理的大腦提供了一種以區域為中心的視頻範式,賦予其對物理世界的細粒度感知能力,從而支持更精確的交互。為緩解註釋3D數據集的稀缺性,我們提出了一種基於自我中心視角的視頻管道,用於生成具身認知數據。此外,我們還引入了RynnEC-Bench,這是一個以區域為中心的基準測試,用於評估具身認知能力。我們期待RynnEC能推動具身代理通用認知核心的發展,並促進跨多樣具身任務的泛化能力。代碼、模型檢查點及基準測試均可通過以下鏈接獲取:https://github.com/alibaba-damo-academy/RynnEC。
人工智慧系統正在改變科學發現的方式,透過加速特定研究任務,從蛋白質結構預測到材料設計,然而這些系統仍局限於需要大量人為監督的狹窄領域。科學文獻的指數級增長和日益增長的領域專業化限制了研究人員跨學科綜合知識和發展統一理論的能力,這促使我們探索更通用的科學用人工智慧系統。在此,我們展示了一種領域無關的、具自主性的AI系統,能夠獨立完成科學工作流程——從假設生成、數據收集到論文撰寫。該系統自主設計並執行了三項關於視覺工作記憶、心理旋轉和意象生動性的心理學研究,進行了一項涉及288名參與者的線上數據收集,通過超過8小時的連續編碼開發了分析流程,並完成了論文撰寫。結果表明,AI科學發現流程能夠進行具有理論推理和方法嚴謹性的非平凡研究,其水平可與經驗豐富的研究者相媲美,儘管在概念細微差別和理論解釋方面存在局限。這是朝著能夠通過現實世界實驗測試假設的具身AI邁出的一步,通過自主探索科學空間中人類認知和資源限制可能無法觸及的區域來加速發現。這引發了關於科學理解本質和科學貢獻歸屬的重要問題。
自注意力机制的二次复杂度限制了其在大规模非结构化网格上的适用性和可扩展性。我们引入了快速低秩注意力路由引擎(FLARE),这是一种线性复杂度的自注意力机制,通过固定长度的潜在序列来路由注意力。每个注意力头通过可学习的查询令牌将输入序列投影到长度为M(M远小于N)的固定潜在序列上,从而实现N个令牌之间的全局通信。通过将注意力路由至瓶颈序列,FLARE学习到了一种低秩形式的注意力,其计算成本为O(NM)。FLARE不仅能够扩展到前所未有的问题规模,而且在多种基准测试中,相较于最先进的神经PDE替代模型,提供了更优的精度。我们还发布了一个新的增材制造数据集,以促进进一步的研究。我们的代码可在https://github.com/vpuri3/FLARE.py获取。
監督式微調(Supervised Fine-Tuning, SFT)與強化學習(Reinforcement Learning, RL)是兩種重要的後訓練範式,用於精煉大型語言模型(Large Language Models, LLMs)的能力並對齊其行為。現有整合SFT與RL的方法常面臨破壞已建立模型模式及過度擬合專家數據的風險。為解決此問題,我們提出了一種新穎的研究,通過離策略與在策略的視角來統一審視SFT與RL。我們提出了CHORD框架,即通過動態加權實現可控的在策略與離策略強化學習的協調,該框架將SFT重新定義為在策略RL過程中的一個動態加權輔助目標,而非獨立階段。基於對離策略專家數據在整體與細粒度層面影響的分析,我們在CHORD中引入了雙重控制機制。具體而言,該框架首先採用全局係數來整體引導從離策略模仿到在策略探索的過渡,然後應用一個基於詞元的加權函數,使模型能夠從專家詞元中進行細粒度學習,這既保留了在策略探索,又減輕了離策略數據的干擾。我們在廣泛使用的基準上進行了大量實驗,提供了CHORD實現穩定且高效學習過程的實證證據。通過有效協調離策略專家數據與在策略探索,CHORD展現出相較於基線方法的顯著改進。我們在https://github.com/modelscope/Trinity-RFT/tree/main/examples/mix_chord發布了實現,以期激發進一步的研究。
視覺語言模型(VLMs)在英語多模態任務上展現了顯著的能力,但其在低資源語言且真正多模態教育內容上的表現仍大多未被探索。本研究測試了VLMs在越南教育評估中的表現,探討了主要基於英語數據訓練的VLMs是否能處理現實世界的跨語言多模態推理。我們的工作首次全面評估了VLMs在多模態越南考試上的能力,通過提出ViExam這一包含2,548道多模態問題的基準。我們發現,最先進的VLMs在包括數學、物理、化學、生物、地理、駕駛考試和智商測試在內的7個學術領域中,平均準確率僅為57.74%,而開源模型的平均準確率為27.70%。大多數VLMs的表現低於人類考生的平均水平(66.54%),僅有思考型VLM o3(74.07%)超過了人類平均表現,但仍遠低於人類最佳表現(99.60%)。在保持越南內容的同時使用英語指令進行跨語言提示未能提升表現,反而使最先進VLMs的準確率下降了1個百分點。人機協作可以部分提升VLMs的表現,提高5個百分點。代碼和數據可在以下網址獲取:https://vi-exam.github.io。
大型語言模型(LLMs)在推理任務上取得了顯著進展,尤其是通過思維鏈(CoT)推理等方法。然而,在需要精確計算的任務中,它們往往表現不佳。工具集成推理(TIR)作為一種解決方案應運而生,通過將外部工具整合到推理過程中來提升性能。然而,TIR在提升LLM推理能力方面的泛化效果仍不明確。此外,TIR是否改善了模型的推理行為並幫助模型更好地思考,仍有待研究。我們引入了ReasonZoo,這是一個涵蓋九種不同推理類別的綜合基準,用於評估TIR在各個領域中的有效性。此外,我們提出了兩個新指標——性能感知成本(PAC)和性能-成本曲線下面積(AUC-PCC)——來評估推理效率。我們的實證評估表明,啟用TIR的模型在數學和非數學任務中均持續優於未啟用TIR的模型。此外,TIR提升了推理效率,這體現在改進的PAC和AUC-PCC上,表明減少了過度思考並實現了更為精簡的推理。這些發現凸顯了TIR的領域通用優勢及其在提升LLM處理複雜推理任務能力方面的潛力。
尺度變化是計算機視覺中的一個基本挑戰。同一類別的物體可能具有不同的大小,而它們的感知大小還會受到與攝像頭距離的影響。這些變化是局部於物體的,即在同一圖像中,不同物體的大小可能以不同方式變化。為了有效處理尺度變化,我們提出了一種深度平衡規範化器(DEC),以提升模型的局部尺度等變性。DEC可以輕鬆融入現有的網絡架構,並能適應預訓練模型。值得注意的是,我們在競爭激烈的ImageNet基準測試中展示,DEC提升了四種流行預訓練深度網絡(如ViT、DeiT、Swin和BEiT)的模型性能和局部尺度一致性。我們的代碼可在https://github.com/ashiq24/local-scale-equivariance 獲取。
本文提出了一種新穎的方法,用於在全同態加密(Fully Homomorphic Encryption, FHE)框架內計算萊文斯坦(編輯)距離,特別針對如TFHE等第三代方案。編輯距離計算在金融和基因組學等領域的應用中至關重要,例如DNA序列比對。我們引入了一種名為Leuvenshtein的優化算法,該算法顯著降低了編輯距離計算的成本。該算法特別減少了每個計算單元所需的可編程自舉(Programmable Bootstraps, PBS)操作次數,從傳統Wagner-Fisher算法所需的大約94次操作降低至僅1次。此外,我們提出了一種高效的方法來執行字符的相等性檢查,將ASCII字符比較減少到僅需2次PBS操作。最後,我們探討了當其中一個輸入字符串未加密時,利用預處理進一步提升性能的潛力。我們的Leuvenshtein算法相比現有最佳的TFHE實現,性能提升了高達278倍,相比優化的Wagner-Fisher算法實現,性能提升了高達39倍。此外,當服務器端存在一個未加密輸入,從而可以進行離線預處理時,還能實現額外的3倍加速。
近期,在推理增强的大型语言模型(LLMs)领域取得的进展,展现了其在复杂推理任务中的卓越能力。然而,关于这些模型如何运用不同人类推理技能的机制,尤其是涉及跨语言和文化的日常知识的多语言常识推理,仍鲜有深入研究。为填补这一空白,我们提出了一个多语言且可扩展的基于技能的常识推理基准(mSCoRe)。 该基准包含三个关键组成部分,旨在系统评估LLM的推理能力:(1)一种新颖的推理技能分类法,支持对模型推理过程的细粒度分析;(2)专为常识推理评估设计的稳健数据合成流程;(3)一个复杂度扩展框架,使任务难度能随LLM能力的未来提升而动态调整。通过对八种不同规模和训练方法的最先进LLM进行广泛实验,我们发现mSCoRe对当前模型而言仍极具挑战性,尤其是在更高复杂度级别上。我们的结果揭示了这些推理增强模型在面对微妙的多语言通用及文化常识时的局限性。此外,我们还对模型的推理过程进行了详细分析,为提升多语言常识推理能力指明了未来研究方向。
多模態推薦系統致力於利用物品的豐富模態信息(如圖像和文本描述)來提升推薦性能。當前方法憑藉圖神經網絡強大的結構建模能力已取得顯著成功。然而,這些方法在現實場景中常受制於數據稀疏性。儘管對比學習和同構圖(即同質圖)被用於應對數據稀疏性挑戰,現有方法仍存在兩大主要局限:1)簡單的多模態特徵對比未能生成有效表示,導致模態共享特徵中的噪聲以及模態獨有特徵中有價值信息的丟失;2)對用戶興趣與物品共現之間同構關係的探索不足,導致用戶-物品交互挖掘不完整。 為解決上述局限,我們提出了一種新框架——REfining multi-modAl contRastive learning and hoMography relations(REARM)。具體而言,我們通過引入元網絡和正交約束策略來完善多模態對比學習,這些策略能過濾掉模態共享特徵中的噪聲,並保留模態獨有特徵中與推薦相關的信息。為有效挖掘同質關係,我們將新構建的用戶興趣圖和物品共現圖與現有的用戶共現圖和物品語義圖相結合,進行圖學習。在三個真實世界數據集上的廣泛實驗證明了REARM相較於多種最先進基線方法的優越性。我們的可視化結果進一步展示了REARM在區分模態共享特徵與模態獨有特徵方面的改進。代碼可於此處獲取:https://github.com/MrShouxingMa/REARM。