每日精選AI研究論文及翻譯
擴散語言模型具備快速平行生成的潛力,而自迴歸模型則因其因果結構與語言建模的自然契合性通常在生成品質上更勝一籌。這引發了一個根本性問題:能否實現兼具高吞吐量、更高GPU利用率與自迴歸級品質的協同效應?現有方法未能有效平衡這兩方面,要麼採用較弱模型進行序列草稿生成(如推測解碼)而優先考慮自迴歸特性,導致草稿效率低下;要麼為擴散模型引入某種左至右(類自迴歸)解碼邏輯,但仍存在品質下降問題並喪失其潛在的平行化優勢。我們提出TiDAR——一種序列級混合架構,通過特殊設計的結構化注意力掩碼,在單次前向傳播中實現擴散階段的令牌草稿生成(思考)與自迴歸階段的最終輸出採樣(表達)。該設計充分利用GPU計算密度,在草稿生成與驗證能力間達成強效平衡。此外,TiDAR作為獨立模型具備服務友好性(低開銷)。我們在15億和80億參數規模下,針對生成與概似任務對TiDAR進行廣泛評估,對比對象包括自迴歸模型、推測解碼及擴散變體。得益於平行草稿生成與採樣機制以及精確的KV緩存支持,TiDAR在實測吞吐量上超越推測解碼,並在效率和品質方面勝過Dream、Llada等擴散模型。最顯著的是,TiDAR成為首個在品質上追平自迴歸模型的同時,實現每秒生成令牌數提升4.71倍至5.91倍的架構。
我們介紹了Lumine,這是首個開放式配方,用於開發能在具有挑戰性的3D開放世界環境中實時完成數小時複雜任務的通用型智能體。Lumine採用了類人交互範式,通過視覺-語言模型驅動,將感知、推理與行動以端到端的方式統一。它以5赫茲的頻率處理原始像素,生成精確的30赫茲鍵鼠操作,並僅在必要時自適應地調用推理功能。在《原神》中訓練的Lumine,成功以與人類相當的效率完成了整個五小時的蒙德主線劇情,並能根據自然語言指令,在3D開放世界探索與2D圖形用戶界面操作中執行廣泛任務,包括收集、戰鬥、解謎及與NPC互動。除了在特定領域內的表現外,Lumine還展現出強大的零樣本跨遊戲泛化能力。無需任何微調,它便能在《鳴潮》中完成100分鐘的任務,並完整通關《崩壞:星穹鐵道》首章五小時的內容。這些令人鼓舞的成果凸顯了Lumine在不同世界及交互動態中的有效性,標誌著在開放環境中邁向通用型智能體的具體一步。
命中化合物識別是早期藥物研發的核心挑戰,傳統上需要耗費大量實驗資源。人工智慧(尤其是大型語言模型)的最新進展,使得虛擬篩選方法能夠有效降低成本並提升效率。然而,這類工具日益增長的複雜性限制了濕實驗室研究人員的使用門檻。多智能體系統通過結合大型語言模型的可解釋性與專業模型及工具的精准度,為此提供了極具前景的解決方案。本研究提出MADD多智能體系統,能根據自然語言查詢構建並執行客製化的命中化合物識別流程。MADD採用四個協同運作的智能體,分別處理從頭化合物生成與篩選中的關鍵子任務。我們在七個藥物研發案例中評估MADD,證明其性能優於現有基於大型語言模型的解決方案。通過MADD系統,我們率先將AI優先的藥物設計方法應用於五個生物靶點,並公開發布所識別的命中分子。最後,我們建立了包含逾三百萬個化合物的查詢-分子對接評分新基準,以推動藥物設計邁向智能體驅動的未來。
基於擴散模型的影片生成技術雖能創造逼真影片,但現有基於圖像與文本的條件控制方法難以實現精確運動調控。過往的運動條件合成方法通常需針對特定模型進行微調,這種方式不僅計算成本高昂且適用性有限。我們提出Time-to-Move(TTM)——一種無需訓練、即插即用的框架,可透過圖像到影片(I2V)擴散模型實現運動與外觀的雙重控制。我們的核心思路是採用透過剪貼拖拽或深度重投影等用戶友好操作獲得的粗略參考動畫。受SDEdit利用粗粒度佈局線索進行圖像編輯的啟發,我們將此類粗糙動畫視為運動提示信號,並將該機制適配至影片領域。我們通過圖像條件保持外觀一致性,並提出雙時鐘去噪策略——這種區域依賴性方法在運動指定區域實施強對齊約束,同時允許其他區域保持動態靈活性,從而平衡用戶意圖還原度與自然動態效果。這種對採樣過程的輕量級修改無需額外訓練或運算成本,且兼容任何骨幹模型。在物體運動與鏡頭運動基準測試中的大量實驗表明,TTM在真實感與運動控制精度上達到甚至超越現有需訓練的基準方法。此外,TTM更具備獨特優勢:透過像素級條件控制實現精確外觀調控,突破純文本提示的侷限性。歡迎造訪我們的項目頁面觀看影片範例與取得程式碼:https://time-to-move.github.io/。
我們推出 Motif-2-12.7B,這是一款新型開放權重基礎模型,通過結合架構創新與系統級優化,推進了大型語言模型的效率邊界。該模型專為在有限計算預算下實現可擴展的語言理解與穩健的指令泛化能力而設計,基於 Motif-2.6B 架構整合了分組差分注意力(GDA)機制,藉由分離信號與噪聲控制的注意力路徑來提升表徵效率。模型使用課程驅動的數據調度策略,在涵蓋多語言、數學、科學及程式設計領域的 5.5 兆詞元上進行預訓練,並逐步調整數據組成比例。訓練系統採用 MuonClip 優化器與定制高性能核心,包括融合式 PolyNorm 激活函數與並行 Muon 算法,在大規模分散式環境中實現了顯著的吞吐量與記憶體效率提升。後訓練階段採用三階段監督微調流程,逐步強化通用指令遵循、組合性理解與語言精確度。Motif-2-12.7B 在多項基準測試中展現出極具競爭力的表現,證明深思熟慮的架構擴展與優化訓練設計足以媲美規模更大的模型能力。
透過外部工具增強大型語言模型(LLMs)使其能夠執行複雜的多步驟任務。然而,工具學習目前受制於靜態合成數據流程——數據生成與模型訓練被分割為兩個獨立且無交互的過程。這種方法無法針對模型特定弱點進行自適應聚焦,且允許噪聲標籤持續存在,從而降低訓練效率。我們提出 LoopTool,一個全自動、模型感知的數據演化框架,通過緊密整合數據合成與模型訓練來閉合此循環。LoopTool 透過三個協同模組迭代優化數據與模型:(1) 貪婪能力探測(GCP)診斷模型已掌握與失敗的能力;(2) 判斷引導標籤驗證(JGLV)使用開源評判模型發現並修正標註錯誤,逐步淨化數據集;(3) 錯誤驅動數據擴充(EDDE)基於已識別的失敗案例生成具挑戰性的新樣本。此閉環流程運行於成本效益高的開源生態中,無需依賴昂貴的閉源 API。實驗表明,經 LoopTool 訓練的 8B 模型顯著超越其 32B 數據生成器,並在其規模對應的 BFCL-v3 與 ACEBench 基準測試中取得最新頂尖成果。我們的研究證明,閉環式自我優化的數據流程能大幅提升 LLMs 的工具使用能力。
視覺-語言-動作模型在通用機器人操作領域展現出強大潛力,但其對專家示範數據的依賴限制了從失敗中學習與執行自我校正的能力。強化學習雖能透過與物理環境的自主交互實現自我改進,但在實體機器人上面臨高樣本複雜度的問題。我們提出基於世界模型的策略優化框架,這是一種無需與真實環境交互即可實現在線VLA強化學習的理論框架。與廣泛使用的潛在世界模型不同,WMPO專注於像素級預測,使「想像」軌跡與網路規模圖像預訓練的VLA特徵對齊。關鍵在於,WMPO使策略能夠執行在線GRPO,其性能優於常用的離線方法。在模擬與實機環境中的大量實驗表明,WMPO具有以下優勢:(i)顯著提升樣本效率;(ii)達成更強的整體性能;(iii)展現自我校正等湧現行為;(iv)具備穩健的泛化能力與終身學習特性。
使用者介面(UI)開發需要將設計稿轉換為功能性程式碼,這個過程至今仍重複性高且耗費人力。儘管近期視覺語言模型(VLM)能自動化實現 UI-to-Code 生成,但其僅能產生缺乏互動性的靜態 HTML/CSS/JavaScript 佈局。為解決此問題,我們提出首個具備代理能力的互動式 UI-to-Code 生成與驗證框架 WebVIA。該框架包含三大組件:1)用於捕捉多狀態 UI 截圖的探索代理;2)生成可執行互動程式碼的 UI2Code 模型;3)驗證互動功能的檢測模組。實驗結果表明,WebVIA-Agent 相較通用代理(如 Gemini-2.5-Pro)能實現更穩定精準的 UI 探索。此外,我們微調後的 WebVIA-UI2Code 模型在生成可執行互動的 HTML/CSS/JavaScript 程式碼方面顯著提升,於互動式與靜態 UI2Code 基準測試中均超越其基礎模型。相關程式碼與模型已開源於 https://zheny2751-dotcom.github.io/webvia.github.io/{https://webvia.github.io}。
多模態大型語言模型(MLLMs)在視覺語言問答任務中展現出卓越能力。儘管優勢顯著,這類模型在實現複雜推理任務(如數學解題)時仍常面臨挑戰。先前研究主要聚焦於針對專業數學資料集進行微調,然而這些資料集通常直接從教師模型蒸餾而得,僅能捕捉靜態推理模式,與學生模型存在顯著差距。這種對固定教師衍生資料集的依賴,不僅限制了模型適應超越訓練資料範疇的新穎或複雜問題的能力,更缺乏實現穩健泛化所需的迭代深度。為突破這些限制,我們提出\method——一個面向MLLMs的數學自進化框架。有別於傳統一次性微調範式,\method透過推理、反思與獎勵回饋的循環迭代優化模型。具體而言,我們透過整合來自前階段推理的正確解題路徑,並結合專用結果獎勵模型(ORM)的反思意見來實現迭代微調。為驗證\method的有效性,我們在系列高難度基準測試上進行評估,結果顯示其相較於骨幹模型實現顯著性能提升。值得注意的是,我們在MathVL-test上的實驗結果超越了當前領先的開源多模態數學推理模型QVQ。相關程式碼與模型已公開於:https://zheny2751\allowbreak-dotcom.github.io/\allowbreak MathSE.github.io/。
網路代理程式因缺乏環境特定任務與示範資料而難以適應新網站。近期研究嘗試透過合成資料生成來解決此問題,但存在資料品質缺陷:合成任務常包含無法執行的虛幻操作,且收集的軌跡資料充滿冗餘或動作失準的雜訊。本文提出SynthAgent——一個透過雙重細化任務與軌跡來提升合成資料品質的全合成監督框架。我們的方法首先透過分類探索網頁元素來生成多樣化任務,確保對目標環境的有效覆蓋。在軌跡收集過程中,當檢測到任務與實際觀察值衝突時,我們會即時細化任務,在保持任務一致性的同時消除虛幻操作。收集完成後,我們基於全域上下文進行軌跡細化,以減少潛在雜訊與失準問題。最後,我們使用精煉後的合成資料對開源網路代理程式進行微調,使其適應目標環境。實驗結果表明,SynthAgent優於現有合成資料方法,驗證了高品質合成監督的重要性。程式碼將公開於 https://github.com/aiming-lab/SynthAgent。
擴散模型在使用分類器自由引導(CFG)等指導方法時展現出強大的生成效能,這些方法通過修改採樣軌跡來提升輸出品質。此類技術通常透過刻意劣化特定輸出(例如無條件輸出)來強化目標輸出,並採用啟發式擾動函數如恆等混合或模糊條件。然而,這些方法缺乏理論基礎,且依賴人工設計的失真策略。本研究提出對抗性Sinkhorn注意力引導(ASAG),這是一種新穎方法,從最優傳輸角度重新詮釋擴散模型中的注意力分數,並通過Sinkhorn算法刻意擾動傳輸成本。ASAG並非簡單破壞注意力機制,而是在自注意力層中注入對抗性成本以降低查詢與鍵之間的像素級相似度。這種刻意劣化能削弱誤導性注意力對齊,從而提升條件與無條件樣本品質。ASAG在文本到圖像擴散任務中展現穩定改進,並於IP-Adapter、ControlNet等下游應用中增強可控性與保真度。該方法具輕量級、即插即用特性,無需模型重新訓練即可提升可靠性。
诸如OpenAI Codex、Claude Code和Cursor等智能体编程工具正在重塑软件工程领域。这些AI驱动的系统如同自主协作的团队成员,能够规划并执行复杂的开发任务。在重构这一旨在提升代码内部质量而不改变可观测行为的可持续软件开发核心实践中,智能体已成为积极参与者。尽管应用日益广泛,但业界对智能体重构的实际运用方式、与人工重构的差异及其对代码质量的影响仍缺乏关键性实证认知。为填补这一空白,我们针对真实开源Java项目中的AI智能体重构开展大规模研究,基于AIDev数据集分析了12,256个拉取请求和14,988次提交中的15,451个重构实例。实证分析表明,重构在此开发模式中已成为常见且具目的性的活动,智能体在26.1%的提交中明确以重构为目标。重构类型分析显示,智能体的重构行为以低层次、一致性为导向的修改为主,例如变更变量类型(11.8%)、重命名参数(10.4%)和重命名变量(8.5%),这反映出其更倾向于局部优化而非人类重构中常见的高层设计变更。此外,智能体重构的动机高度集中于内部质量考量,可维护性(52.5%)和可读性(28.1%)占据主导。代码质量指标的定量评估进一步表明,智能体重构能在结构指标上产生虽小但统计显著的改善,尤其对中等规模变更效果明显,有效降低了类规模与复杂度(如类代码行数中位数变化量Δ=-15.25)。
语言模型展现出卓越的自然语言生成能力,但仍易产生幻觉现象,即在生成语法连贯的响应时仍会输出事实性错误信息。本研究提出许可验证器(Licensing Oracle)这一架构解决方案,通过基于结构化知识图谱的形式化验证来实施真实性约束,从而遏制语言模型的幻觉生成。与依赖数据扩展或微调的统计方法不同,许可验证器在模型生成过程中嵌入了确定性验证步骤,确保仅产生事实准确的陈述。我们通过对比实验评估了许可验证器的有效性,参比方法包括基线语言模型生成、事实召回微调、弃答行为微调以及检索增强生成(RAG)。实验结果表明,尽管RAG和微调能提升性能,但无法完全消除幻觉。相比之下,许可验证器实现了完美的弃答精确度(AP = 1.0)和零错误答案率(FAR-NE = 0.0),在事实性回答中以89.1%的准确率确保只生成有效陈述。本研究表明,对于具有结构化知识表示的领域,许可验证器这类架构创新为解决幻觉问题提供了充分必要的解决方案,其保障效果是统计方法无法企及的。虽然许可验证器专为事实性领域的幻觉问题设计,但其框架为未来AI系统的真实性约束生成奠定了基础,为构建可靠且具有认知根基的模型开辟了新路径。