每日精選AI研究論文及翻譯
代理強化學習(Agentic RL)的興起標誌著從傳統應用於大型語言模型(LLM RL)的強化學習範式轉變,將LLMs從被動的序列生成器重新定位為嵌入複雜動態世界中的自主決策代理。本調查通過對比LLM-RL中退化的單步馬可夫決策過程(MDPs)與定義Agentic RL的時間延展、部分可觀測的馬可夫決策過程(POMDPs),正式化了這一概念轉變。基於此基礎,我們提出了一個全面的雙重分類法:一個圍繞核心代理能力組織,包括規劃、工具使用、記憶、推理、自我改進和感知;另一個則圍繞這些能力在各種任務領域中的應用。我們論述的核心在於,強化學習是將這些能力從靜態的啟發式模塊轉化為適應性強、魯棒的代理行為的關鍵機制。為了支持和加速未來的研究,我們將開源環境、基準測試和框架的格局整合成一個實用的彙編。通過綜合超過五百篇近期文獻,本調查描繪了這一快速發展領域的輪廓,並強調了將塑造可擴展、通用AI代理發展的機遇與挑戰。
圖形用戶界面(GUI)自主代理的開發在人工智能領域面臨重大挑戰。儘管近期原生代理模型的進展通過端到端學習統一了感知、推理、行動和記憶,展現出潛力,但在數據可擴展性、多輪強化學習(RL)、僅限GUI操作的局限性以及環境穩定性方面仍存在未解難題。在本技術報告中,我們介紹了UI-TARS-2,這是一種以GUI為核心的原生代理模型,通過系統化的訓練方法應對這些挑戰:用於可擴展數據生成的數據飛輪、穩定的多輪RL框架、整合文件系統和終端的混合GUI環境,以及用於大規模部署的統一沙盒平台。實證評估表明,UI-TARS-2相較其前身UI-TARS-1.5取得了顯著進步。在GUI基準測試中,其在Online-Mind2Web上達到88.2分,在OSWorld上達到47.5分,在WindowsAgentArena上達到50.6分,在AndroidWorld上達到73.3分,超越了Claude和OpenAI代理等強勁基線。在遊戲環境中,其在15款遊戲套件中的平均標準化得分為59.8,約為人類水平的60%,並在LMGame-Bench上與前沿專有模型(如OpenAI o3)保持競爭力。此外,該模型能夠泛化至長時程信息搜索任務和軟件工程基準測試,凸顯了其在多樣化代理任務中的魯棒性。對訓練動態的詳細分析進一步提供了在大規模代理RL中實現穩定性和效率的見解。這些結果彰顯了UI-TARS-2在推進GUI代理技術狀態方面的潛力,並展現出在現實世界互動場景中的強大泛化能力。
大型语言模型(LLMs)通过与外部工具的交互,可显著提升其推理能力,这一范式被称为工具集成推理(Tool-Integrated Reasoning, TIR)。然而,利用强化学习(Reinforcement Learning, RL)将TIR扩展至多轮交互场景时,常因训练不稳定及性能崩溃而受阻。我们发现,此类不稳定性主要源于外部工具反馈导致的分布漂移,进而引发低概率令牌的生成。这一问题在连续轮次中累积,造成灾难性的梯度范数爆炸,从而扰乱训练进程。为应对这一挑战,我们提出了SimpleTIR,一种即插即用的算法,旨在稳定多轮TIR训练。其核心策略是识别并过滤掉包含无效轮次(即未生成代码块或最终答案的轮次)的轨迹。通过将这些有问题的轨迹从策略更新中移除,SimpleTIR有效阻断了有害的高幅值梯度,从而稳定了学习动态。大量实验表明,SimpleTIR在具有挑战性的数学推理基准测试中达到了最先进的性能,特别是在以Qwen2.5-7B基础模型为起点时,将AIME24分数从纯文本基线的22.1显著提升至50.5。此外,通过避免监督微调的限制,SimpleTIR鼓励模型发现多样且复杂的推理模式,如自我修正与交叉验证。
在視覺語言建模中,批評模型通常被訓練來評估輸出——分配標量分數或成對偏好——而非生成回應。這種與生成回應的策略模型的分離是如此根深蒂固,以至於批評模型很少被考慮直接用於策略。在本研究中,我們挑戰這一慣例。我們提出將偏好標記的批評數據集重組為可驗證的訓練信號,並直接在基礎生成模型上進行強化學習,從而產生了LLaVA-Critic-R1,這是一個多模態批評模型,旨在優化偏好判斷的同時保留完整的生成能力。令人驚訝的是,LLaVA-Critic-R1不僅作為頂尖的批評模型脫穎而出,還成為了一個具有競爭力的策略模型——在26個視覺推理和理解基準測試中,匹配或超越了使用領域內數據訓練的專門推理視覺語言模型,相較於其基礎模型(Qwen-2.5-VL-7B)平均提升了+5.7%。將此方法擴展到現有的強大推理視覺語言模型,我們得到了LLaVA-Critic-R1+,它在不犧牲批評質量的前提下進一步提升了策略性能,在7B規模上達到了MMMU的71.9 SoTA性能。最後,我們展示了增強後的批評能力對推理的益處:在測試時應用自我批評,在五個代表性推理任務上平均提升了+13.8%,而無需額外訓練。我們的結果表明,基於批評數據的強化學習訓練可以產生一個在評估和生成方面都表現出色的統一模型,為可擴展、自我改進的多模態系統提供了一條簡單的路徑。
可驗證獎勵的強化學習(RLVR)在提升大型語言模型(LLM)的推理能力方面已展現出成功,但仍局限於單輪互動且未整合工具使用。儘管近期出現了以工具使用為核心的代理強化學習(ARLT)方法來處理多輪工具互動,現有研究開發的任務特定代碼庫存在碎片化、同步執行瓶頸及跨領域擴展性有限的問題。這些低效性阻礙了更廣泛的社區採用和算法創新。我們引入了VerlTool,這是一個通過系統化設計原則解決上述限制的統一且模塊化的框架。VerlTool提供了四大關鍵貢獻:(1) 與VeRL的上游對齊,確保兼容性並簡化維護,(2) 通過標準化API實現統一工具管理,支持包括代碼執行、搜索、SQL數據庫及視覺處理在內的多種模式,(3) 異步執行策略,消除同步瓶頸,實現近2倍的加速,(4) 全面評估,在6個ARLT領域展示出競爭力的性能。我們的框架將ARLT形式化為包含多模態觀察標記(文本/圖像/視頻)的多輪軌跡,超越了單輪RLVR範式。我們在數學推理、知識問答、SQL生成、視覺推理、網絡搜索及軟件工程任務上訓練並評估模型,取得了與專用系統相當的結果,同時提供了統一的訓練基礎設施。模塊化插件架構使得工具集成僅需輕量級Python定義,大幅降低開發開銷,為工具增強型RL研究提供了可擴展的基礎。我們的代碼已開源於https://github.com/TIGER-AI-Lab/verl-tool。
視頻多模態大語言模型(Video-MLLMs)在視頻理解方面取得了顯著進展。然而,它們仍然容易產生與視頻輸入不一致或無關的幻覺內容。以往的視頻幻覺基準主要集中於短視頻,並將幻覺歸因於強語言先驗、缺失幀或視覺編碼器引入的視覺-語言偏差等因素。雖然這些原因確實解釋了短視頻中的大多數幻覺,但它們仍然過於簡化了幻覺的成因。有時,模型會生成錯誤的輸出,但幀級語義卻是正確的。我們將這種類型的幻覺稱為語義聚合幻覺(Semantic Aggregation Hallucination, SAH),它發生在將幀級語義聚合為事件級語義組的過程中。考慮到由於多個事件之間語義複雜性的增加,SAH在長視頻中變得尤為關鍵,因此有必要分離並深入研究這種幻覺的成因。為解決上述問題,我們引入了ELV-Halluc,這是首個專注於長視頻幻覺的基準,能夠系統性地研究SAH。我們的實驗證實了SAH的存在,並顯示其隨著語義複雜性的增加而增加。此外,我們發現模型在語義快速變化的情況下更容易產生SAH。此外,我們討論了緩解SAH的潛在方法。我們證明位置編碼策略有助於減輕SAH,並進一步採用DPO策略來增強模型區分事件內外語義的能力。為支持這一點,我們整理了一個包含8K對抗數據對的數據集,並在ELV-Halluc和Video-MME上取得了改進,包括SAH比率大幅降低了27.7%。
高質量的標註數據對於訓練精確的文件轉換模型至關重要,尤其是在包含複雜格式(如表格、公式和多欄文本)的領域中。然而,手動標註既昂貴又耗時,而使用現有模型進行自動標註在處理此類挑戰性場景時往往缺乏準確性。因此,通過從教師模型蒸餾輸出來訓練學生模型,可能會顯著限制其在實際應用中的表現。本文提出了一個完全自動化、無需蒸餾的框架,該框架包含兩個階段,用於構建能夠處理多樣文件格式和佈局的高質量文件提取數據集和模型。在第一階段,我們引入了一種生成大規模、多樣化合成數據的方法,使模型能夠以統一的格式提取關鍵元素,並具備強大的初始性能。在第二階段,我們提出了一種自我改進方法,進一步將最初在合成數據上訓練的模型適應於真實世界的文件。具體而言,我們首先使用微調後的模型對真實文件進行標註,然後應用一系列過濾策略來驗證標註質量,最後在驗證後的數據集上重新訓練模型。通過迭代重複這一過程,我們逐步提升了模型的轉換能力以及生成數據的質量。我們訓練了一個公開的POINTS-1.5模型,獲得了POINTS-Reader,其性能超越了許多現有的公開和專有模型,無論是規模相當還是更大的模型。我們的模型可在https://github.com/Tencent/POINTS-Reader獲取。
隨著大型語言模型(LLMs)在對話與推理能力上的進步,其在醫療保健領域的實際應用已成為關鍵研究焦點。然而,醫學LLMs在如USMLE等靜態基準測試上的表現與其在真實世界臨床決策中的實用性之間存在顯著差距。這一差異源於傳統考試未能捕捉到醫療諮詢的動態互動特性。為應對這一挑戰,我們引入了一種新穎的動態驗證框架,該框架超越了靜態答案驗證器,建立了一個大規模、高保真度的互動式強化學習系統。我們的框架包含兩個核心組件:一個利用去識別化醫療記錄創建真實臨床環境的患者模擬器,以及一個動態生成多維度評估指標的臨床評分標準生成器。基於此,我們開發了Baichuan-M2,這是一個擁有320億參數的醫學增強推理模型,通過採用改進的群組相對策略優化(GRPO)算法的多階段強化學習策略進行訓練。在HealthBench上的評估顯示,Baichuan-M2超越了所有其他開源模型及多數先進的閉源模型,在極具挑戰性的HealthBench Hard基準測試中得分超過32分——此前僅有GPT-5達成此成就。我們的工作表明,強大的動態驗證系統對於將LLM能力與實際臨床應用對齊至關重要,為醫學AI部署在性能與參數權衡中開闢了新的帕累托前沿。
基於自注意力機制的Transformer架構已成為序列建模任務的實際標準。然而,其核心計算原語的複雜度隨序列長度呈二次方增長(O(N^2)),這在處理長上下文時形成了顯著的瓶頸。本文提出了一種新穎的、完全並行的序列建模架構——門控關聯記憶(GAM)網絡,該架構在序列長度方面展現出線性複雜度(O(N))。GAM模塊以兩個並行路徑取代了自注意力層:一個是因果卷積,用於高效捕捉局部、位置依賴的上下文;另一個是並行的關聯記憶檢索機制,用於建模基於內容的全局模式。這些路徑通過門控機制動態融合,使模型能夠靈活地為每個令牌結合局部和全局信息。我們從頭實現了GAM,並在WikiText-2基準上與標準Transformer模型及現代線性時間基線(Mamba)進行了嚴格的對比分析,同時在TinyStories數據集上與Transformer進行了比較。我們的實驗表明,GAM在訓練速度上始終更快,超越了兩個基線,並且在所有數據集上均達到了優越或具有競爭力的最終驗證困惑度,從而確立了其作為序列建模的一種有前景且高效的替代方案。
近年來,大型語言模型(LLMs)的發展取得了顯著進展,通過多模態大型語言模型(MLLMs)將其能力擴展至多模態任務。然而,由於視頻的動態性和信息密集性,視頻理解仍然是一個具有挑戰性的領域。現有模型在處理視頻內容時,難以在空間分辨率和時間覆蓋範圍之間取得平衡。我們提出了Keye-VL-1.5,該模型通過三項關鍵創新解決了視頻理解中的基本挑戰。首先,我們引入了一種新穎的慢-快視頻編碼策略,該策略基於幀間相似性動態分配計算資源,以更高分辨率處理視覺變化顯著的關鍵幀(慢路徑),同時以較低分辨率處理相對靜態的幀並增加時間覆蓋範圍(快路徑)。其次,我們實施了一種漸進式的四階段預訓練方法,系統地將模型的上下文長度從8K擴展到128K個標記,使其能夠處理更長的視頻和更複雜的視覺內容。第三,我們開發了一個全面的後訓練管道,專注於推理增強和人類偏好對齊,包括一個五步思維鏈數據構建過程、基於GSPO的迭代強化學習(針對困難案例的漸進提示)以及對齊訓練。通過在公共基準上的廣泛評估和嚴格的內部人類評估,Keye-VL-1.5展示了相較於現有模型的顯著改進,尤其在視頻理解任務中表現出色,同時在通用多模態基準上保持競爭力。
大型語言模型通常需要進行昂貴的優化,例如強化學習,才能掌握複雜的推理任務。本研究表明,一旦學習到的推理能力可以被提取並以緊湊的任務向量形式在模型之間傳遞。我們選取了兩個公開可用、初始化相同的Qwen2.5模型,其中一個通過監督微調(SFT)進行了微調,另一個則在同一數據集上使用了群組相對策略優化(GRPO)。從這些模型中,我們提取了一個推理向量:v_{reason} = theta_{GRPO} - theta_{SFT}。我們假設這個向量捕捉了強化學習所灌輸的推理能力,同時排除了SFT過程中的共享知識。當通過簡單的算術運算將該向量添加到兼容的指令微調模型時,它在多樣化的推理基準測試中持續提升了性能:GSM8K(+4.9%)、HumanEval(+4.3%)、SciQ(+1.7%)以及BigBenchHard(1.5B模型上+12.3%)。在對抗性條件下,性能提升依然存在。相反,減去該向量會導致性能顯著下降(GSM8K上-11.8%),這表明該向量對模型的推理能力有重大貢獻。這項工作展示了如何從現有的開源模型中提取通常通過昂貴訓練開發的推理能力,並通過簡單的張量運算進行再利用,提供了一種通過回收先前的計算投資來增強模型的實用方法。
本文提出了一种简化OpenVision架构和损失函数设计的方法,以提升其训练效率。借鉴先前视觉-语言预训练工作CapPa和AIMv2,以及现代多模态设计如LLaVA,我们的改动简洁明了:移除了文本编码器(连带对比损失),仅保留生成式训练信号——即字幕生成损失。我们将这一新版本命名为OpenVision 2。初步结果显示,尽管进行了简化,OpenVision 2在广泛的多模态基准测试中仍能与原模型性能相媲美,同时大幅减少了训练时间和内存消耗。例如,使用ViT-L/14时,训练时间减少了约1.5倍(从83小时降至57小时),内存使用量减少了约1.8倍(从24.5GB降至13.8GB,相当于最大批量大小从2k增至8k)。这种卓越的训练效率还使我们能够超越OpenVision中使用的最大视觉编码器规模,参数数量突破10亿大关。我们坚信,这种轻量级、纯生成式的范式对于未来多模态基础模型中的视觉编码器开发具有强大的吸引力。
大型語言模型(LMs)的後期訓練往往優先考慮準確性和幫助性,而犧牲了多樣性。這造成了一種矛盾:雖然後期訓練提高了回應質量,但它也使得輸出分佈更加集中,減少了想法的範圍,從而限制了LMs在創意和探索性任務(如頭腦風暴、故事創作或問題解決)中的實用性。我們通過多樣性感知強化學習(Diversity-Aware Reinforcement Learning, DARLING)框架來應對這一挑戰,該框架同時優化回應質量和語義多樣性。DARLING的核心在於引入了一種學習的分區函數,用於衡量超越表面詞彙變化的多樣性。這一多樣性信號隨後與在線強化學習中的質量獎勵相結合,鼓勵模型生成既高質量又獨特的輸出。跨多個模型家族和規模的實驗表明,DARLING在兩種情境下均表現出良好的泛化能力:不可驗證任務(指令遵循和創意寫作)和可驗證任務(競賽數學)。在第一種情境下的五個基準測試中,DARLING始終優於僅關注質量的強化學習基線,生成的輸出在質量和新穎性上均更勝一籌。在第二種情境下,DARLING實現了更高的pass@1(解決方案質量)和pass@k(解決方案多樣性)。最引人注目的是,明確優化多樣性促進了在線強化學習中的探索,這表現為更高質量的回應。
近期,基於可驗證獎勵的強化學習(Reinforcement Learning with Verifiable Rewards, RLVR)的進展,賦予了大規模語言模型(Large Language Models, LLMs)解決如數學和編程等複雜推理任務的能力。RLVR利用可驗證的結果獎勵來指導策略優化,使LLMs能夠以一種紮實且可靠的方式逐步提升輸出質量。儘管前景廣闊,RLVR範式仍面臨重大挑戰,現有方法常受制於稀疏的獎勵信號和不穩定的策略梯度更新,尤其是在基於強化學習的方法中。為應對這些挑戰,我們提出了PACS,這是一種新穎的RLVR框架,通過監督學習框架實現了隱含的演員-評論家耦合。通過將結果獎勵視為可預測的標籤,我們將RLVR問題重新表述為對由策略模型參數化的得分函數進行監督學習的任務,並使用交叉熵損失進行優化。詳細的梯度分析表明,這種監督式表述本質上恢復了經典的策略梯度更新,同時隱含地耦合了演員和評論家的角色,從而實現了更穩定和高效的訓練。在具有挑戰性的數學推理任務上的基準測試中,PACS超越了如PPO和GRPO等強勁的RLVR基線,展現出卓越的推理性能。例如,在AIME 2025上,PACS在pass@256指標上達到了59.78%,相較於PPO和GRPO分別提升了13.32和14.36個百分點。這一簡潔而強大的框架為LLMs在可驗證獎勵下的後續訓練提供了一條充滿希望的道路。我們的代碼和數據已作為開源項目提供於https://github.com/ritzz-ai/PACS。
影片合成技術結合實景拍攝素材以創造影片作品,是影片創作與電影製作中的關鍵技術。傳統流程需要大量人力投入與專家協作,導致製作周期長且人力成本高。為解決此問題,我們利用生成模型自動化這一過程,稱之為生成式影片合成。這項新任務旨在以互動方式自適應地將前景影片的身份與運動信息注入目標影片中,讓用戶能夠自定義最終影片中動態元素的大小、運動軌跡等屬性。具體而言,我們基於其內在特性設計了一種新穎的擴散變壓器(DiT)流程。為保持編輯前後目標影片的一致性,我們改進了一個輕量級的基於DiT的背景保留分支,採用掩碼標記注入技術。為繼承其他來源的動態元素,提出了一種利用全自注意力機制的DiT融合塊,並配合簡單而有效的前景增強訓練方法。此外,為根據用戶控制融合不同佈局的背景與前景影片,我們開發了一種新穎的位置嵌入方法,名為擴展旋轉位置嵌入(ERoPE)。最後,我們為這項新任務策劃了一個包含61K組影片的數據集,名為VideoComp。該數據集涵蓋完整的動態元素與高質量的目標影片。實驗證明,我們的方法有效實現了生成式影片合成,在保真度與一致性上優於現有可能的解決方案。
大型語言模型(LLMs)的近期發展,伴隨著一系列新穎理念與方法的湧現,旨在更有效地優化深度學習模型的損失函數。這些方法所宣稱的優勢繁多,從加速收斂到消除對特定超參數的依賴不等。然而,由於驗證這些主張所採用的實驗方案各異,使得方法間的直接比較變得頗具挑戰。本研究針對標準化的LLM預訓練情境,對近期優化技術進行了全面評估,系統性地變更了模型規模、批次大小及訓練時長。通過對每種方法的細緻調優,我們為實踐者提供了針對不同情境下最適宜優化器的指導。對於研究人員而言,我們的工作指明了未來優化研究中的潛在方向。最後,通過公開我們的代碼並確保所有實驗的完全可重現性,我們期望這些努力能助力未來方法的開發與嚴謹基準測試。
基於可驗證獎勵的強化學習(RLVR)已成為提升大型語言模型推理能力的一種前景廣闊的框架。然而,現有方法如GRPO常面臨梯度為零的問題。這一問題主要源於對詞元級概率比率的固定裁剪界限以及對相同獎勵的標準化處理,這可能導致梯度更新無效及生成回應的利用不足。本研究提出動態裁剪策略優化(DCPO),引入了一種基於詞元特定先驗概率自適應調整裁剪界限的動態裁剪策略,以增強詞元級探索;並採用平滑優勢標準化技術,跨累積訓練步驟標準化獎勵,以提高回應層面對生成回應的有效利用。DCPO在基於四種不同模型的四個基準測試中均達到了最先進的性能。特別地,在AIME24基準上,DCPO在貪婪解碼下取得了46.7的Avg@1,在32次採樣下取得了38.8的Avg@32,超越了Qwen2.5-Math-7B模型上的DAPO(36.7/31.6)和GRPO(36.7/32.1)。在基於Qwen2.5-14B的AIME25基準上,DCPO表現為(23.3/19.0),優於GRPO(13.3/10.5)和DAPO(20.0/15.3)。此外,DCPO在四種模型上相較GRPO平均提升了28%的非零優勢,訓練效率相較DAPO翻倍,並顯著降低了詞元裁剪比率,相比GRPO和DAPO均減少了一個數量級,同時實現了更優的性能。這些結果凸顯了DCPO在更高效利用生成數據進行大型語言模型強化學習方面的有效性。
基于大语言模型(LLM)的图形用户界面(GUI)代理在多样化的数字环境中展现出交互潜力。其中,视频游戏因其界面多变而成为宝贵的测试平台,尤其是冒险游戏,其复杂的叙事驱动互动带来了额外挑战。然而,现有的游戏基准测试缺乏多样性,且鲜少评估代理完成整个故事情节的能力。为此,我们推出了FlashAdventure,一个包含34款基于Flash的冒险游戏的基准测试集,旨在检验完整故事弧的完成度,并应对观察与行为之间的差距——即记忆并基于早期游戏信息采取行动的难题。同时,我们提出了CUA-as-a-Judge,一种自动化的游戏玩法评估器,以及COAST,一个利用长期线索记忆来更好地规划和解决序列任务的代理框架。实验表明,当前的GUI代理在完成完整故事弧方面存在困难,而COAST通过弥合观察与行为之间的差距,显著提高了里程碑任务的完成率。尽管如此,人类与表现最佳代理之间仍存在显著差异,这提示我们需要持续的研究努力来缩小这一差距。
守護者模型用於監督和調節面向用戶的聊天機器人輸出,實施防護措施並檢測不良行為。標準的守護者模型如LlamaGuard檢測預定義的靜態危害類別。我們提出動態守護者模型,其基於用戶自定義策略評估文本,使其適用於標準守護者模型未涵蓋的不同應用領域。我們的動態守護者模型可用於快速檢測策略違規,或結合思維鏈推理來闡述和證明模型輸出的合理性。在檢測靜態危害類別的準確性上,我們的動態守護者模型與靜態模型相當,同時在識別自由形式策略違規方面,其準確性可媲美前沿推理模型,且僅需其一小部分時間。
向量嵌入技術近年來承擔了日益增多的檢索任務,並在推理、指令遵循、編碼等領域展現出初步的應用潛力。這些新興的基準測試要求嵌入模型能夠處理任何查詢及任何可能給出的相關性概念。儘管先前的研究已指出向量嵌入在理論上的局限性,但普遍假設這些困難僅源於不切實際的查詢,而對於那些合理的查詢,則可通過更好的訓練數據和更大的模型來克服。在本研究中,我們證實了即便在極其簡單的查詢下,於現實場景中也可能遭遇這些理論限制。我們結合學習理論中的已知結果,表明能夠作為某些查詢結果返回的文檔top-k子集的數量,受制於嵌入的維度。我們通過實證研究證明,即使將k限制為2,並在測試集上自由參數化嵌入進行直接優化,這一結論依然成立。隨後,我們基於這些理論結果創建了一個名為LIMIT的現實數據集,對模型進行壓力測試,並觀察到即便在任務極為簡單的情況下,最先進的模型在該數據集上仍表現不佳。我們的工作揭示了現有單一向量範式下嵌入模型的局限性,並呼籲未來研究開發能夠解決這一根本限制的方法。
大型語言模型(LLMs)在生成合成數據方面表現卓越,但確保其質量和多樣性仍具挑戰性。我們提出了一種名為“基因提示”的新框架,該框架將遺傳算法與LLMs結合,以增強合成數據的生成。我們的方法將語義文本屬性視為基因序列,並利用LLM模擬交叉和變異操作。這一遺傳過程通過創造新的屬性組合來提升數據質量和多樣性,從而生成更接近真實世界數據的合成分佈。為了優化親本選擇,我們還整合了一種主動學習方案,以擴展後代的搜索空間。我們在多個自然語言處理任務上的實驗揭示了幾個關鍵發現:基因提示不僅顯著超越了最先進的基線模型,而且在不同生成模型大小和規模上均表現出穩健的性能。此外,我們證明將我們的合成數據與原始訓練集融合,能顯著提升下游模型的性能,尤其是在類別不平衡的情況下。我們的研究結果驗證了基因提示是一種有效的方法,能夠為廣泛的自然語言處理應用生成高質量的合成數據。
醫學影像檢索對於臨床決策和轉化研究至關重要,其依賴於具有區分性的視覺表徵。然而,當前的方法仍然分散,針對2D、3D和基於視頻的醫學數據依賴於獨立的架構和訓練策略。這種特定模態的設計阻礙了可擴展性,並抑制了統一表徵的發展。為了實現統一學習,我們策劃了一個大規模混合模態數據集,包含867,653個醫學影像樣本,包括2D X光和超聲波、RGB內窺鏡視頻以及3D CT掃描。利用這一數據集,我們訓練了M3Ret,這是一個無需任何模態特定定制的統一視覺編碼器。它成功地通過生成式(MAE)和對比式(SimDINO)自監督學習(SSL)範式學習了可遷移的表徵。我們的方法在所有單一模態的零樣本圖像到圖像檢索中設定了新的最先進水平,超越了DINOv3和文本監督的BMC-CLIP等強基線。更為顯著的是,在沒有配對數據的情況下出現了強烈的跨模態對齊,並且模型能夠泛化到未見的MRI任務,儘管在預訓練期間從未觀察過MRI,這展示了純視覺自監督對未見模態的泛化能力。全面的分析進一步驗證了我們框架在模型和數據規模上的可擴展性。這些發現為醫學影像社區提供了有希望的信號,將M3Ret定位為多模態醫學影像理解中視覺SSL基礎模型邁出的一步。
AdamW 長期以來一直是語言模型預訓練中的主導優化器,儘管有眾多聲稱替代優化器能提供 1.4 到 2 倍加速的說法。我們認為,兩個方法上的缺陷掩蓋了公平的比較並阻礙了實際應用:(i) 不均衡的超參數調優和 (ii) 有限或誤導性的評估設置。為解決這兩個問題,我們對十種深度學習優化器進行了系統性研究,涵蓋四種模型規模(0.1B-1.2B 參數)和數據與模型比例(1-8 倍於 Chinchilla 最優值)。我們發現,公平且具信息量的比較需要嚴格的超參數調優和跨多種模型規模及數據與模型比例的評估,並在訓練結束時進行。首先,一個優化器的最佳超參數可能對另一個優化器是次優的,使得盲目的超參數轉移不公平。其次,許多提出的優化器相對於良好調優的基線的實際加速低於聲稱值,並隨模型規模增大而降低,對於 1.2B 參數的模型僅為 1.1 倍。第三,在達到目標訓練預算之前比較中間檢查點可能具有誤導性,因為兩個優化器之間的排名可能因學習率衰減而在訓練過程中翻轉。通過我們的深入調查,我們發現所有最快的優化器,如 Muon 和 Soap,都使用矩陣作為預條件子——將梯度與矩陣相乘而非逐元素縮放。然而,基於矩陣的優化器的加速與模型規模成反比,從 0.1B 參數模型相對於 AdamW 的 1.4 倍加速降至 1.2B 參數模型的僅 1.1 倍加速。
大型语言模型(LLMs)在众多基准测试中展现出金牌级别的表现,然而,此类成功是否真正反映了推理能力还是仅仅基于模式匹配,尚不明确。从认知科学的角度来看,一个具有启发性的测试是模型能否通过显式的元语言演绎学习掌握一门陌生语言,这一范式下,人类学习者能够可靠地通过元语言推理内化语法体系。我们通过Camlang这一新颖的构造语言来探讨这一问题,该语言展示了自然语言中未曾出现过的特征组合。Camlang包含两套显式资源:一本语法书和一本双语词典,它们模拟了成人通过显式语法规则和词汇查找学习第二语言的过程,使我们能够区分形态句法、词汇语义及句子层面推理中的错误。人类实验表明,这些资源足以让参与者掌握Camlang并成功解决Camlang任务。为了实施评估,我们将CommonsenseQA改编为Camlang版本,创建了Camlang-CSQA-v0,这是更广泛任务套件中的首个任务,解决这些问题需要应用语法规则和词汇映射。实验结果显示,GPT-5在英语中达到了98%的精确匹配(EM)准确率,但在Camlang中仅为47%,远低于人类87%的表现,而其他顶尖推理型LLMs的表现更差。人类验证进一步揭示,模型的大部分成功源于浅层的词汇对齐,而GPT-5在有限程度上展现出初级的元语言意识,但并未像人类那样系统性地掌握语法。Camlang确立了一个基于认知的评估范式,揭示了当前模型与人类元语言能力之间的根本差距。
深度研究工具是当今最具影响力且最常遇到的代理系统之一。然而,我们观察到,迄今为止引入的每个深度研究代理都是硬编码的,以使用固定的工具选择执行特定的研究策略。我们引入了通用深度研究(Universal Deep Research, UDR),这是一个通用型代理系统,它能够包裹任何语言模型,并让用户创建、编辑和优化他们自己完全定制的深度研究策略,而无需任何额外的训练或微调。为了展示我们系统的通用性,我们为UDR配备了最小化、扩展化和深入化的研究策略示例,并提供了一个用户界面,以便于对该系统进行实验。
我們提出ViSTA-SLAM作為一種即時單目視覺SLAM系統,其運作無需相機內參數,從而使其廣泛適用於多種相機配置。該系統的核心採用了一種輕量級的對稱雙視圖關聯(STA)模型作為前端,該模型僅需兩張RGB圖像即可同時估計相機相對位姿並回歸局部點雲圖。此設計大幅降低了模型複雜度,我們前端的規模僅為同類最先進方法的35%,同時提升了流程中所用雙視圖約束的質量。在後端,我們構建了一個特別設計的Sim(3)位姿圖,該圖融合了迴環檢測以應對累積漂移問題。大量實驗表明,與現有方法相比,我們的方法在相機追蹤和密集三維重建質量方面均展現出卓越性能。GitHub倉庫地址:https://github.com/zhangganlin/vista-slam。
隨著視覺語言模型(VLMs)的快速發展,基於圖形用戶界面(GUI)的移動代理已成為智能移動系統的一個關鍵發展方向。然而,現有的代理模型在實際任務執行中仍面臨重大挑戰,特別是在準確性和效率方面。為解決這些限制,我們提出了MobiAgent,這是一個全面的移動代理系統,包含三個核心組件:MobiMind系列代理模型、AgentRR加速框架和MobiFlow基準測試套件。此外,考慮到當前移動代理的能力仍受制於高質量數據的可用性,我們開發了一種AI輔助的敏捷數據收集管道,顯著降低了人工註釋的成本。與通用的大型語言模型(LLMs)和專用GUI代理模型相比,MobiAgent在實際移動場景中實現了最先進的性能。
視覺自回歸模型(VAR)近期作為一類具有前景的生成模型嶄露頭角,在文本到圖像生成任務中表現可與擴散模型相媲美。儘管條件生成已被廣泛探索,無需額外訓練即可實現提示引導的圖像編輯能力同樣至關重要,因其支撐著眾多實際應用場景。本文通過引入視覺自回歸逆噪聲(VARIN),首次專為VAR模型設計的基於噪聲反轉的編輯技術,深入探討了VAR在文本到圖像編輯方面的能力。VARIN利用一種新穎的偽逆函數——位置感知Argmax反轉(LAI)——來生成逆Gumbel噪聲。這些逆噪聲不僅能精確重建源圖像,還能促進與文本提示對齊的定向、可控編輯。大量實驗表明,VARIN能有效根據指定提示修改源圖像,同時顯著保留原始背景與結構細節,從而驗證了其作為實用編輯方法的有效性。
將自然語言查詢轉換為SQL查詢是工業界和學術界共同面臨的關鍵挑戰,旨在提升對數據庫和大規模應用程式的訪問能力。本研究探討如何利用上下文學習和思維鏈來開發一個穩健的文本到SQL系統解決方案。我們提出了SQL思維鏈:一個多代理框架,將Text2SQL任務分解為模式鏈接、子問題識別、查詢計劃生成、SQL生成以及引導式修正循環。與以往僅依賴基於執行的靜態修正系統不同,我們引入了基於上下文學習的、由分類法引導的動態錯誤修正機制。SQL思維鏈在Spider數據集及其變體上取得了最先進的成果,結合了引導式錯誤分類與基於推理的查詢規劃。
本研究揭示了各向異性參數分佈作為訓練低比特量化大型語言模型(LLMs)的根本障礙:少數主導奇異值產生的寬廣數值範圍與塊級量化的固有偏見相衝突。這種偏見不成比例地保留高幅值而捨棄較小值,導致訓練不穩定和模型性能低下。本文提出Metis訓練框架,結合以下三點:(i) 譜分解與隨機嵌入,有效分離主導成分與長尾成分,將寬廣分佈壓縮至適合量化的狹窄範圍;(ii) 在譜域中採用自適應學習率,放大未被充分代表的方向,更好地捕捉對性能至關重要的多樣特徵;(iii) 雙範圍正則化器,聯合約束數值精度與參數範圍分佈,確保穩定、無偏的低比特訓練。藉助Metis,FP8訓練超越FP32基線,FP4訓練達到與FP32相當的精度,為在先進低比特量化下實現穩健且可擴展的LLM訓練鋪平道路。Metis的代碼實現已公開於:https://github.com/typename-yyf/Metis-quantization。
我們推出「月光精粹」系列,這是一套專為多種代表性不足語言設計的微型自動語音識別(ASR)模型。普遍觀點認為,多語言ASR模型通過利用跨語言語音相似性,其性能優於單語言模型。我們對此假設提出挑戰,證明對於足夠小的模型(2700萬參數),在精心平衡的高質量人工標註、偽標註及合成數據上訓練的單語言系統,能顯著提升性能。平均而言,我們的模型錯誤率比同等規模的Whisper Tiny模型低48%,超越參數量9倍於其的Whisper Small模型,且在大多數情況下,與參數量28倍於其的Whisper Medium模型相當甚至更優。這些成果推動了此類規模模型的技術前沿,為先前支持有限的語言實現了精準的設備端ASR。我們以寬鬆的開源許可發布了阿拉伯語、中文、日語、韓語、烏克蘭語及越南語的「月光精粹」模型。
在CT和MRI掃描中精確分割器官和腫瘤對於診斷、治療計劃和疾病監測至關重要。儘管深度學習已推動了自動化分割的進步,但大多數模型仍局限於特定任務,缺乏跨模態和跨機構的通用性。基於億級自然圖像預訓練的視覺基礎模型(FMs)提供了強大且可遷移的特徵表示。然而,將其應用於醫學影像面臨兩個主要挑戰:(1) 大多數基礎模型的ViT骨幹在醫學圖像分割上仍遜色於專用CNN,(2) 自然圖像與醫學圖像之間的大域差距限制了遷移能力。我們提出了MedDINOv3,這是一個簡單有效的框架,用於將DINOv3適應於醫學分割。我們首先重新審視了普通ViT,並設計了一個簡單有效的多尺度令牌聚合架構。隨後,我們在CT-3M(一個包含387萬張軸向CT切片的精選數據集)上進行了域適應性預訓練,採用多階段DINOv3配方來學習魯棒的密集特徵。MedDINOv3在四個分割基準測試中匹配或超越了現有最先進的性能,展示了視覺基礎模型作為醫學圖像分割統一骨幹的潛力。代碼可在https://github.com/ricklisz/MedDINOv3獲取。
大型語言模型(LLMs)可能無意中反映出其訓練數據中存在的社會偏見,導致有害或帶有偏見的輸出。在印度語境下,我們對一系列模型的實證評估顯示,圍繞種姓和宗教的偏見尤為突出。然而,現有的大多數緩解策略都以西方為中心,未能解決這些本土細微差別。我們提出了AMBEDKAR框架,該框架受到印度憲法設計師B. R. 安貝德卡博士的平等願景啟發,旨在引導LLM的輸出朝著公平、中立和包容的方向發展,符合印度憲法第14至17條的精神。我們的方法引入了一個憲法感知解碼層,該層由印度AI憲法指導,僅在推理時應用,無需對基礎模型進行任何參數更新。我們還採用了推測解碼算法,在生成過程中主動減少種姓主義和社群偏見。這一緩解層直接在解碼過程中運作,避免了對模型內部的修改,並降低了與重新訓練相關的計算和基礎設施成本。我們將推測解碼重新詮釋為不僅是效率工具,更是實現公平的機制。在該框架中,小型語言模型(SLM)充當潛在的偏見生成器,而由憲法指導的大型語言模型(LLM)則作為驗證者。LLM並非加速生成,而是確保SLM輸出遵循抗偏見的路徑。這種角色反轉催生了一種基於推測的公平範式。與基線相比,我們的方法使偏見絕對減少了高達26.41%。我們的源代碼、數據集和結果可在https://anonymous.4open.science/r/AMBEDKAR-983B/獲取。
提示敏感性,指的是當重新表述(即使用不同詞語重複書面或口語內容)導致大型語言模型(LLM)性能顯著變化的現象,已被廣泛認為是LLM的核心限制之一。在本研究中,我們重新審視這一問題並提出疑問:廣泛報導的高提示敏感性是否真的是LLM的固有弱點,還是很大程度上是評估過程的產物?為回答這一問題,我們系統性地評估了7個LLM(例如GPT和Gemini系列)在6個基準測試上的表現,包括基於12種多樣提示模板的多選題和開放式任務。我們發現,許多提示敏感性源於啟發式評估方法,包括對數似然評分和嚴格的答案匹配,這些方法往往忽略了通過同義詞或改寫表達的語義正確的回應。當我們採用LLM作為評判者的評估方法時,我們觀察到性能變異性大幅降低,並且模型排名在不同提示間的一致性相關性顯著提高。我們的研究結果表明,現代LLM對提示模板的魯棒性比以往認為的要強,提示敏感性可能更多是評估過程的產物,而非模型本身的缺陷。
大型視覺與語言模型(LVLMs)的傳統對齊方法主要依賴於人工篩選的偏好數據。人類生成的偏好數據成本高昂;機器生成的偏好數據質量有限;而自監督的偏好數據往往會引入幻覺。為克服這些限制,我們提出了一種受人類協作學習啟發的新型「同儕評審團」學習框架。該方法利用一組LVLMs,每個模型通過迭代的自我改進過程,評估並從集體輸出中學習。通過模擬同行評審系統,我們的模型針對一組精心設計的提示生成、評估並精煉輸出,模仿課堂學習環境。我們證明,這種方法無需大量人工標註數據即可提升模型性能。實驗結果顯示,在多個基準測試中均有顯著改善,展示了同儕評估作為自監督對齊的可擴展替代方案的潛力。值得注意的是,我們發現「同儕評審團」將十五個基準測試的平均分數從48%提升至57%。
推薦系統(RSs)中的公平性通常被分為群體公平性和個體公平性兩類。然而,目前尚未建立對這兩種公平性之間關係的科學理解,因為先前關於這兩種公平性的研究各自使用了不同的評估指標或評估目標,從而無法對兩者進行適當的比較。因此,目前尚不清楚提高一種公平性可能會如何影響另一種公平性。為填補這一空白,我們通過對可用於兩種公平性的評估指標進行全面比較,來研究群體公平性和個體公平性之間的關係。我們在三個數據集上進行的八次實驗表明,對群體高度公平的推薦可能對個體非常不公平。這一發現對於旨在提高其系統公平性的推薦系統實踐者來說是新穎且有用的。我們的代碼可在以下網址獲取:https://github.com/theresiavr/stairway-to-fairness。
儘管虛擬試穿技術具有巨大潛力,但其在實際應用中仍面臨兩大挑戰:現有方法無法支持多參考服飾組合(包括服裝與配飾),以及由於在每次去噪步驟中重複計算參考特徵而導致的顯著低效性。為解決這些問題,我們提出了FastFit,這是一個基於新型可緩存擴散架構的高速多參考虛擬試穿框架。通過採用半注意力機制並以類別嵌入替代傳統的時間步嵌入來表示參考物品,我們的模型在幾乎不增加參數開銷的情況下,完全將參考特徵編碼與去噪過程解耦。這使得參考特徵僅需計算一次,並可在所有步驟中無損重用,從根本上突破了效率瓶頸,相比同類方法平均實現了3.5倍的加速。此外,為促進複雜多參考虛擬試穿的研究,我們引入了DressCode-MR,這是一個新的大規模數據集。它包含28,179組高質量配對圖像,涵蓋五個關鍵類別(上衣、下裝、連衣裙、鞋子和包包),並通過專家模型與人工反饋優化的流程構建。在VITON-HD、DressCode及我們自建的DressCode-MR數據集上的廣泛實驗表明,FastFit在關鍵保真度指標上超越了現有最先進的方法,同時在推理效率上展現了其顯著優勢。
點雲學習,特別是在無需人工標籤的自監督方式下,因其在廣泛應用中的潛在效用,已在視覺與學習社群中獲得越來越多的關注。現有的大多數點雲自監督學習生成方法,主要聚焦於從單一視角內的可見點恢復被遮擋的點。認識到雙視角預訓練範式本質上引入了更大的多樣性和變異性,這可能使得預訓練更具挑戰性和信息量。受此啟發,我們探索了雙視角學習在這一領域的潛力。本文中,我們提出了Point-PQAE,這是一種交叉重建的生成範式,首先生成兩個解耦的點雲/視角,然後從一個視角重建另一個視角。為實現這一目標,我們首次開發了一種用於點雲視角生成的裁剪機制,並進一步提出了一種新穎的位置編碼來表示兩個解耦視角之間的三維相對位置。與自我重建相比,交叉重建顯著增加了預訓練的難度,這使得我們的方法在三維自監督學習中超越了之前的單模態自我重建方法。具體而言,在ScanObjectNN的三個變體中,採用Mlp-Linear評估協議,我們的模型分別比自我重建基線(Point-MAE)提升了6.5%、7.0%和6.7%。代碼已公開於https://github.com/aHapBean/Point-PQAE。
在具有挑戰性的視覺領域中,如車輛損傷評估,細粒度物體檢測即使對於人類專家來說也是一項難以可靠解決的難題。儘管DiffusionDet通過條件去噪擴散技術推動了該領域的技術前沿,但其在依賴上下文的情境中,性能仍受限於局部特徵條件。我們針對這一根本性限制,引入了上下文感知融合(Context-Aware Fusion, CAF),該方法利用交叉注意力機制,直接將全局場景上下文與局部提案特徵相結合。全局上下文由一個獨立的專用編碼器生成,該編碼器捕捉全面的環境信息,使每個物體提案都能關注到場景層面的理解。我們的框架通過使每個物體提案都能關注到全面的環境信息,顯著增強了生成式檢測範式。實驗結果表明,在CarDD基準測試上,我們的模型相較於現有最先進模型有所提升,為細粒度領域中的上下文感知物體檢測樹立了新的性能標杆。