每日精選AI研究論文及翻譯
儘管自主軟體工程代理正重塑程式設計範式,但目前存在「封閉世界」的侷限性:它們嘗試從零開始或僅依賴本地上下文來修復錯誤,卻忽略了GitHub等平台上可用的龐大人類歷史經驗。由於現實世界問題追蹤數據的非結構化與碎片化特性,存取這些開放世界經驗面臨阻礙。本文提出MemGovern框架,旨在治理原始GitHub數據並將其轉化為代理可操作的經驗記憶。MemGovern透過經驗治理將人類經驗轉換為代理友好的經驗卡片,並引入代理式經驗搜尋策略,實現邏輯驅動的人類專業知識檢索。透過生成13.5萬張經治理的經驗卡片,MemGovern實現了顯著效能提升,在SWE-bench Verified上的問題解決率提高4.65%。作為外掛式解決方案,MemGovern為代理友好型記憶基礎設施提供了創新實踐。
我們推出Solar Open,這是一個擁有1020億參數的雙語專家混合模型,專為資源匱乏語言設計。該模型通過解決三個相互關聯的挑戰,展現了構建具競爭力大型語言模型的系統性方法。首先,針對資源匱乏語言數據稀缺的問題,我們合成了4.5兆個高質量、領域特定且強化學習導向的詞元數據。其次,我們通過漸進式課程學習協調這些數據,在20兆詞元的規模上聯合優化數據組合、質量閾值與領域覆蓋率。第三,為實現可擴展強化學習的推理能力,我們應用自主提出的SnapPO框架進行高效優化。在英語與韓語的基準測試中,Solar Open展現出極具競爭力的性能,驗證了此方法論對資源匱乏語言AI發展的有效性。
現有的長時程記憶基準測試多採用多輪對話或合成用戶歷史,這使得檢索性能難以準確反映對個人的理解。我們提出\BenchName,一個基於長篇自傳體敘事構建的公開可發布基準測試集,其中行動、情境與內心思維為推斷穩定動機與決策原則提供了密集證據。\BenchName~將每段敘事重構為具備回溯意識的時間錨定序列,並透過涵蓋事實回憶、主觀狀態歸因及原則層級推理的證據鏈結問題來評估模型。在各類敘事來源中,檢索增強系統主要提升事實準確性,但基於時間脈絡的解釋與高層次推論仍持續存在錯誤,凸顯了超越檢索的記憶機制之必要性。我們的數據存放於KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}。
近期大型推理模型(LRM)作為自主代理的典範轉移,加劇了對複雜多輪工具使用能力的需求。然而現有數據集和數據生成方法受限於靜態預定義工具集,難以擴展至開放式人機協作的複雜場景。為解決此問題,我們開發了基於LRM模擬器的自動化任務導向多輪對話生成框架,通過動態生成高價值的領域專用工具來解決指定任務。但我們觀察到純任務導向設計容易產生「唯任務解決」軌跡,即代理以最小交互完成目標,未能生成真實場景中常見的高輪次對話。為彌合這一差距,我們轉向用戶導向的模擬範式:通過將任務生成與專用用戶模擬器解耦,模擬人類行為規則(如漸進式請求提出與逐輪反饋),我們促成了更能反映現實世界問題解決迭代特質的真實延展型多輪對話。我們的生成流水線作為可插拔的通用模塊,能從任意狀態啟動生成,確保在生產擴展型工具使用數據時具備高擴展性。此外,通過在單一軌跡內實現多重任務完成,該框架能產出反映真實人機交互多維需求的高密度數據集。
建構能夠實現靈巧操作的智慧代理,是實現類人自動化的關鍵技術,無論在機器人學或數位環境中皆然。然而,現有的圖形使用者介面代理僅依賴離散的點擊座標預測(x,y),這限制了需要連續即時感知與調整的自由形式閉環軌跡操作(例如拖動進度條)。本研究開發了ShowUI-π——首個基於流模型的GUI靈巧操作手,具備以下創新設計:(一)統一離散-連續動作架構,將離散點擊與連續拖拽整合於共享模型中,實現跨互動模式的靈活適應;(二)基於流模型的拖拽動作生成,透過輕量級動作專家模組從連續視覺觀測預測游標增量調整,確保軌跡平滑穩定;(三)拖拽訓練數據與基準測試,我們手動收集並合成了涵蓋五大領域(如PowerPoint、Adobe Premiere Pro)的2萬條拖拽軌跡,並推出ScreenDrag基準,包含完整的線上與線下評估方案以檢驗GUI代理的拖拽能力。實驗顯示,現有商用GUI代理在ScreenDrag上表現仍顯不足(如Operator得分13.27,最佳表現的Gemini-2.5-CUA僅達22.18),而ShowUI-π僅以4.5億參數即達成26.98分,既凸顯任務難度亦驗證本方法的有效性。我們期待此研究能推動GUI代理在數位世界中實現類人級靈巧操控。程式碼已開源於:https://github.com/showlab/showui-pi。
在工具增強型智慧體框架中,複雜推理本質上具有長期性特徵,這會導致推理軌跡和瞬態工具產物不斷累積,從而對大型語言模型的有限工作上下文造成壓力。若缺乏顯性記憶機制,此類累積會破壞邏輯連續性並削弱任務對齊效果。這使記憶不再僅是輔助性的效率優化項,而成為維持長期連貫目標導向推理的核心組件。 我們提出MemoBrain——一種面向工具增強型智慧體的執行記憶模型,它能構建推理步驟間的依賴感知記憶,捕捉關鍵中間狀態及其邏輯關聯。MemoBrain作為推理智慧體的協同駕駛員,在無需阻斷執行的前提下組織推理進程,並主動管理工作上下文。具體而言,該模型會修剪無效步驟、折疊已完成子軌跡,並在固定上下文預算下保留緊湊的高顯著性推理主幹。這些機制共同實現了對推理軌跡的顯性認知控制,而非被動的上下文堆積。 我們在GAIA、WebWalker和BrowseComp-Plus等具有挑戰性的長期基準測試中評估MemoBrain,結果顯示其相較於強基線模型均能實現持續效能提升。
強化學習在具有可驗證結果的任務上顯著提升了大型語言模型代理的表現,但在解決空間廣闊的開放式代理任務(如複雜旅行規劃)時仍面臨挑戰。由於此類任務缺乏客觀的基準答案,現有的強化學習算法主要依賴於對單個回應給出標量分數的獎勵模型。我們認為這種逐點評分方式存在固有的判別力坍塌問題:獎勵模型難以區分不同軌跡間的細微優勢,導致同組內分數被壓縮至狹窄區間。其結果是,有效獎勵信號被獎勵模型中的噪聲主導,從而引發優化停滯。為解決此問題,我們提出ArenaRL強化學習範式,將逐點標量評分轉變為組內相對排序。ArenaRL引入過程感知的配對評估機制,採用多級評分標準為軌跡分配細粒度相對分數。此外,我們構建了組內對抗競技場,設計基於錦標賽的排序方案以獲取穩定的優勢信號。實驗結果證實,所構建的種子隊單敗淘汰方案在僅需O(N)複雜度的情況下,實現了與O(N²)複雜度的全配對比較幾乎等效的優勢估計精度,在效率與精確度間達到最優平衡。針對開放式代理缺乏全週期基準測試的問題,我們還構建了Open-Travel與Open-DeepResearch兩個高質量基準平台,其完整流程覆蓋監督微調、強化訓練與多維度評估。大量實驗表明,ArenaRL顯著優於標準強化學習基線,使大型語言模型代理能為複雜現實任務生成更魯棒的解決方案。
我們推出Ministral 3系列模型——專為計算與記憶體受限應用設計的參數高效密集型語言模型家族,提供三種參數規模:30億、80億及140億參數。針對每種規模,我們發布三個變體:適用通用場景的預訓練基礎模型、指令微調模型,以及用於複雜問題求解的推理模型。此外,我們提出通過級聯蒸餾技術實現Ministral 3模型的推導方法,該技術融合迭代式剪枝與蒸餾持續訓練。所有模型均具備圖像理解能力,並以Apache 2.0開源協議發布。
基於大型語言模型的自動代理系統正快速發展以處理多輪任務,但確保其可信度仍是關鍵挑戰。可信度的核心支柱之一為校準能力,即代理表達置信度的能力需能可靠反映其實際表現。雖然靜態模型的校準機制已相當成熟,但在工具整合的代理工作流程中的動態校準機制仍待探索。本研究系統性探討工具使用代理的語言化校準現象,揭示由工具類型驅動的根本性置信二分法。具體而言,我們的初步研究發現:證據型工具(如網路搜尋)會因檢索資訊的固有雜訊而系統性引發嚴重過度自信,而驗證型工具(如程式碼直譯器)則能透過確定性回饋錨定推理過程,從而緩解校準失準問題。為跨工具類型實現穩健的校準改進,我們提出強化學習微調框架,透過獎勵設計的整體基準方案,聯合優化任務準確率與校準度。實驗證明,經訓練的代理不僅能達成更優異的校準表現,更能從本地訓練環境穩健泛化至含雜訊的網路場景,並延伸至數學推理等不同領域。我們的成果凸顯針對工具使用代理制定領域特定校準策略的必要性。更廣泛而言,本研究為構建能於高風險現實部署中可靠傳達不確定性的自覺代理奠定了理論基礎。
諸如SAM2等影片物件分割方法雖透過記憶體架構實現優異效能,但在視角劇烈變化時會因依賴外觀特徵而表現不佳。傳統3D實例分割方法雖能解決視角一致性问题,但需相機姿態、深度圖及昂貴的預處理流程。我們提出3AM——一種訓練階段的增強技術,將MUSt3R的3D感知特徵整合至SAM2中。透過輕量級特徵融合器,我們合成了編碼隱式幾何對應關係的多層級MUSt3R特徵。結合SAM2的外觀特徵,該模型能基於空間位置與視覺相似性實現幾何一致性識別。我們提出視野感知取樣策略,確保幀序列觀測到空間一致的物件區域,從而實現可靠的3D對應學習。關鍵在於,本方法在推理階段僅需RGB輸入,無需相機姿態或預處理。在具備寬基線運動的挑戰性資料集(ScanNet++、Replica)上,3AM顯著超越SAM2及其擴展版本,於ScanNet++精選子集達成90.6% IoU與71.7% Positive IoU,較頂尖影片物件分割方法提升15.9與30.4個百分點。專案頁面:https://jayisking.github.io/3AM-Page/
檢索增強生成技術正面臨著兩難抉擇:將多份文檔拼接為長提示詞雖能實現多文檔推理,卻會造成預填充瓶頸;而對文檔鍵值緩存進行分離編碼雖能提升速度,但會破壞跨文檔交互。我們提出並行專家上下文解碼(Pced),這一無需訓練的框架將證據聚合機制從注意力層轉移至解碼層。Pced將檢索文檔視作獨立「專家」,通過創新型的檢索感知對比解碼規則同步各專家預測,該規則以模型先驗為基準對專家邏輯值進行加權。此方法無需構建跨文檔共享注意力機制,即可恢復跨文檔推理能力。
檢索增強生成(RAG)管道需應對的挑戰遠超簡單的單文檔檢索,例如解讀視覺元素(表格、圖表、圖像)、跨文檔信息融合以及提供精準的來源追溯。現有基準測試未能捕捉這種複雜性,往往侷限於文本數據、單文檔理解,或孤立地評估檢索與生成環節。我們推出第三代視覺文檔檢索基準ViDoRe v3,這是一個涵蓋多模態RAG的綜合性基準,其特點是對視覺豐富文檔集進行多類型查詢。該基準覆蓋10個不同專業領域的數據集,包含約26,000個文檔頁面與3,099條人工校驗查詢的配對,每條查詢均提供6種語言版本。通過12,000小時的人工標註工作,我們為檢索相關性、邊界框定位及驗證參考答案提供了高質量標註。對前沿RAG管道的評估表明:視覺檢索器性能優於文本檢索器,延遲交互模型與文本重排序能顯著提升效果,混合或純視覺上下文可增強答案生成質量。然而現有模型仍難以處理非文本元素、開放式查詢及細粒度視覺定位。為推動相關挑戰的攻關,本基準已通過商業友好許可協議在https://hf.co/vidore發布。
近期扩散变换器(DiT)的研究进展虽为图像生成设立了新标杆,但由于其高昂的计算与内存成本,仍难以在终端设备上实际部署。本研究提出一种面向移动及边缘设备的高效DiT框架,能在严格资源限制下实现变换器级别的生成质量。我们的设计融合三大核心要素:首先,提出采用自适应全局-局部稀疏注意力机制的紧凑型DiT架构,平衡全局上下文建模与局部细节保持;其次,构建弹性训练框架,在统一超网络内联合优化不同容量的子DiT模型,使单一模型能动态适配不同硬件的高效推理需求;最后,开发知识引导分布匹配蒸馏技术,该分步蒸馏流程将DMD目标与少步数教师模型的知识迁移相结合,生成适合终端设备实时应用的高保真低延迟结果(如4步生成)。这些创新共同构建了可扩展、高效率、高质量的扩散模型,为多样化硬件部署提供了可行方案。
尽管视频生成模型发展迅猛,但数据对运动特性的影响机制仍不明确。我们提出Motive(视频生成运动归因框架),这一基于梯度的运动中心化数据归因框架可适配现代大规模高质量视频数据集与模型。通过该框架,我们系统分析了哪些微调片段会增强或削弱时序动态效果。Motive通过运动加权损失掩码将时序动态与静态外观分离,实现了高效可扩展的运动特性影响力计算。在文本到视频模型中,Motive能精准识别对运动特征有显著影响的视频片段,并指导数据筛选以提升时间连贯性与物理合理性。采用Motive筛选的高影响力数据后,我们的方法在VBench评测中同时提升了运动平滑度与动态幅度,相比预训练基础模型获得74.1%的人类偏好胜率。据我们所知,这是首个针对视频生成模型进行运动特性(而非视觉外观)归因的框架,并首次将其应用于微调数据筛选。
视觉语言行动模型通过统一感知与规划,同时继承大型视觉语言模型的强大泛化能力,在具身导航领域展现出巨大潜力。然而,现有VLA模型大多依赖从观察到动作的被动映射,缺乏处理复杂长程导航任务所需的显式推理能力和持久记忆机制。为应对这些挑战,我们提出基于语言驱动认知的具身导航模型VLingNav。首先,受人类认知双加工理论启发,我们引入自适应思维链机制,该机制仅在必要时动态触发显式推理,使智能体能在快速直觉执行与慢速审慎规划间流畅切换。其次,针对长程空间依赖关系,我们开发了视觉辅助语言记忆模块,构建具有持续性的跨模态语义记忆,使智能体能回溯历史观察以避免重复探索,并推断动态环境中的运动趋势。在训练方案上,我们构建了迄今最大规模的具身导航推理标注数据集Nav-AdaCoT-2.9M,其中包含诱导模型自主调整"何时思考"与"思考内容"的自适应思维链标注。此外,我们引入在线专家指导的强化学习阶段,使模型突破纯模仿学习局限,获得更鲁棒的自主探索导航行为。大量实验表明,VLingNav在多种具身导航基准测试中均达到最先进性能。值得注意的是,VLingNav能以零样本方式迁移至真实机器人平台,执行多样化导航任务,展现出强大的跨领域与跨任务泛化能力。
基于用户提供身份信息的可控视频角色替换技术,由于缺乏成对的视频数据,至今仍是极具挑战性的难题。现有研究主要依赖基于重建的范式,需要逐帧分割掩码和显式结构引导(如骨骼、深度图)。然而这种依赖性严重限制了方法在复杂场景中的泛化能力,特别是在处理遮挡、角色-物体交互、非常规姿态或复杂光照条件时,往往会产生视觉伪影和时间不一致性。本文提出突破性框架MoCha,仅需单张任意帧掩码即可规避上述限制。为有效适配多模态输入条件并增强面部身份特征,我们引入了条件感知的RoPE机制,并采用基于强化学习的后训练阶段。此外,为解决合格配对训练数据稀缺的问题,我们构建了完整的数据生成流程:专门设计了基于虚幻引擎5的高保真渲染数据集、通过当前人像动画技术合成的表情驱动数据集,以及从现有视频-掩码对衍生的增强数据集。大量实验表明,本方法显著优于现有最优方案。我们将公开代码以促进后续研究,更多细节请访问项目主页:orange-3dv-team.github.io/MoCha。
提升大型语言模型(LLM)的推理能力主要依赖于利用模型生成数据进行迭代式自训练。虽然现有方法能有效提升准确率,但其主要强化了成功的推理路径,导致需要付出显著的校准代价:模型会变得过度自信,丧失表征不确定性的能力。这种失效被描述为对齐过程中的一种模型坍塌形式——预测分布会退化为低方差的点估计。我们通过将推理训练重新定义为认知学习问题来解决此问题,在该框架下模型不仅需要学习如何推理,还需掌握何时该信任自身的推理过程。我们提出认知校准推理(EpiCaR)作为联合优化推理性能与校准度的训练目标,并利用显式自评估信号在迭代式监督微调框架中实现该目标。在Llama-3和Qwen-3系列模型上的实验表明,我们的方法在准确率与校准度方面均实现了对标准基线的帕累托优势,尤其在具备足够推理能力的模型(如3B+参数规模)中表现突出。该框架能有效泛化至分布外数学推理(GSM8K)和代码生成(MBPP)任务。最终,我们的方法使具备较强推理能力的模型仅需K=10个样本即可匹配STaR方法K=30样本的性能,实现了推理计算量3倍的降低。
基于可验证奖励的强化学习(RLVR)已成为大语言模型推理的标准范式。然而,仅针对最终答案正确性进行优化的做法,往往会使模型陷入漫无目的、冗长的探索,依赖穷举试错策略而非结构化规划来求解。虽然长度惩罚等启发式约束能减少冗余,但常会截断关键推理步骤,导致效率与可验证性之间难以权衡。本文提出判别能力是高效生成的前提:通过学习区分有效解,模型可内化一种能剪枝搜索空间的引导信号。我们推出JudgeRLVR这一“先判别后生成”的双阶段范式:第一阶段训练模型评判含可验证答案的解题响应;第二阶段以判别器初始化模型,通过标准生成式RLVR进行微调。相比使用相同数学领域训练数据的标准RLVR,JudgeRLVR为Qwen3-30B-A3B模型实现了更优的质量-效率平衡——在领域内数学任务上平均准确率提升约3.7分的同时生成长度减少42%;在领域外基准测试中平均准确率提升约4.5分,展现出更强的泛化能力。
随着图像生成技术的快速发展,基于自然语言指令的视觉文本编辑日益受到关注。该任务的主要挑战在于充分理解指令与参考图像,从而生成与图像风格一致的视觉文本。现有方法通常需要繁琐的文本内容与属性(如字号、颜色、版式)指定步骤,且未充分考虑与参考图像的风格一致性。为此,我们提出UM-Text——一个通过自然语言指令实现上下文理解与视觉文本编辑的统一多模态模型。具体而言,我们引入视觉语言模型(VLM)处理指令与参考图像,从而基于上下文信息精细设计文本内容与版式。为生成精准和谐的视觉文本图像,我们进一步提出UM-Encoder来融合多模态条件信息的嵌入表示,其组合方式由VLM根据输入指令自动配置。在训练阶段,我们提出区域一致性损失函数,在潜在空间与RGB空间为字形生成提供更有效的监督,并设计定制化的三阶段训练策略以进一步提升模型性能。此外,我们构建了UM-DATA-200K大规模视觉文本图像数据集,涵盖多样化场景以支持模型训练。在多个公开基准测试上的大量定性与定量结果表明,本方法达到了最先进的性能水平。
本文提出VideoLoom——一种用于联合时空理解的统一视频大语言模型。为培养细粒度时空定位能力,我们构建了LoomData-8.7k数据集,该数据集以人为中心,包含时间锚定与空间定位的描述文本。基于此,VideoLoom在多项时空基准测试中达到领先或极具竞争力的性能(例如在指代视频目标分割任务ReVOS上获得63.1 J&F值,在时序定位任务Charades-STA上达到48.3 R1@0.7)。此外,我们推出LoomBench新型基准,包含时序、空间及组合型视频-问题对,可从多维度全面评估视频大语言模型。这些成果共同构成了一套通用有效的联合时空视频理解方案,为多模态智能树立了新标准。
文本到可视化(Text2Vis)系统能够将针对表格数据的自然语言查询转换为简洁的答案及可执行的可视化图表。尽管闭源大型语言模型可生成功能代码,但其生成的图表常存在语义对齐不足和清晰度欠佳的问题,这些质量指标仅能在代码执行后进行评估。开源模型表现更为逊色,常产生无法执行或视觉效果低劣的输出。虽然监督微调能提升代码可执行性,但由于传统监督微调损失函数无法捕捉执行后反馈,该方法难以全面提升可视化质量。为弥补这一缺陷,我们提出RL-Text2Vis——首个基于强化学习的Text2Vis生成框架。该方法基于群组相对策略优化(GRPO)构建,通过新型多目标奖励机制,利用执行后反馈联合优化文本准确性、代码有效性和可视化质量。通过训练Qwen2.5模型(7B和14B参数版本),RL-Text2Vis在Text2Vis基准测试中较GPT-4o实现图表质量22%的相对提升,并将代码执行成功率从零样本基线的78%提升至97%。我们的模型显著超越强零样本与监督基线,并在VIS-Eval和NVBench等域外数据集上展现出强大泛化能力。这些成果证实GRPO是可视化生成中结构化多模态推理的有效策略。代码已发布于https://github.com/vis-nlp/RL-Text2Vis。
离散运动标记化技术近年来使得大型语言模型(LLM)能够作为运动理解与运动-语言推理的多功能基础架构。然而,现有技术流程通常将运动量化与语义嵌入学习相互解耦,仅通过标记ID建立关联。这种方法未能有效对齐运动空间与嵌入空间的内在几何结构,从而限制了LLM进行精细运动推理的能力。我们认为,当两种模态共享统一的几何基础时,对齐效果最为显著。为此,我们提出了一种新颖框架,通过显式施加正交性约束于运动码本和LLM嵌入空间,使其关系结构自然映射,而非强制LLM从零开始重构运动标记间的复杂几何关系。具体而言,我们采用基于Gumbel-Softmax的仅解码器量化器,实现可微分训练与均衡的码本使用;通过稀疏投影在保持正交性的前提下将运动编码映射至LLM嵌入空间;最后设计两阶段正交正则化方案,在标记器训练与LLM微调过程中施加软约束,在维持几何对齐的同时不阻碍语义适配。在HumanML3D数据集上的大量实验表明,我们的框架相较现有最优方法性能提升20%,验证了统一几何基础能有效增强LLM的精细运动推理能力。
大型语言模型(LLMs)在现实世界事实核查系统中的部署日益增多,然而现有评估主要聚焦于声明验证环节,忽视了包括声明提取与证据检索在内的完整事实核查工作流。这种局限使当前基准测试难以揭示现代LLMs存在的系统性推理缺陷、事实盲区及鲁棒性局限。为弥补这一空白,我们提出FactArena——一个全自动的竞技场式评估框架,通过分阶段基准测试对LLMs在完整事实核查流程中的表现进行全面评估。该框架集成三大核心组件:(i)基于LLM驱动的事实核查流程,标准化声明解构、通过工具增强交互实现证据检索、以及基于论证的判定预测;(ii)遵循统一参考准则的竞技场式评判机制,确保异构评判代理间进行无偏差且一致的成对比较;(iii)竞技场驱动的声明演化模块,能自适应生成语义受控的高难度声明,突破固定种子数据的限制以探测LLMs的事实鲁棒性。在对七大模型家族的16个前沿LLMs进行测试后,FactArena产生了稳定且可解释的排名结果。我们的分析进一步揭示了静态声明验证准确率与端到端事实核查能力之间的显著差异,凸显了整体评估的必要性。该框架为诊断LLMs的事实推理能力、指导未来模型开发、以及推动LLMs在安全关键型事实核查应用中的可靠部署,提供了可扩展且可信赖的评估范式。