每日精選AI研究論文及翻譯
我們推出LongCat-Flash-Thinking-2601,這是一個擁有5600億參數的開源專家混合推理模型,具備卓越的智能體推理能力。該模型在廣泛的智能體基準測試中實現了開源模型的頂尖性能,包括智能體搜索、智能體工具使用及工具整合推理。除基準表現外,該模型還展現出對複雜工具交互的強大泛化能力,以及在噪聲現實環境中的穩健行為。其先進能力源於統一的訓練框架,該框架結合了領域並行專家訓練與後續融合技術,並實現了從預訓練到後訓練階段涵蓋數據構建、環境、算法與基礎設施的端到端協同設計。特別是在複雜工具使用方面的強大泛化能力,得益於我們對環境擴展與原則性任務構建的深入探索。為優化長尾分佈、偏態生成與多輪智能體交互,並實現跨20餘領域、超萬種環境的穩定訓練,我們系統性擴展了異步強化學習框架DORA,以支持大規模多環境的穩定高效訓練。此外,針對現實任務固有的噪聲特性,我們系統分析並分解了現實噪聲模式,設計了針對性訓練流程,將此類不完美因素顯式融入訓練過程,從而提升現實應用的魯棒性。為進一步增強複雜推理任務性能,我們引入「深度思考模式」,通過密集並行思考同步擴展推理深度與寬度,實現有效的測試時擴展。
大型語言模型代理在軟體開發領域展現出卓越能力,但其性能常受冗長交互上下文制約,導致API成本與延遲居高不下。儘管已有如LongLLMLingua等多種上下文壓縮方案應對這一挑戰,這些方法通常依賴PPL等固定指標,忽略了程式碼理解的任務特定性,往往破壞語法邏輯結構並遺失關鍵實作細節。本文提出SWE-Pruner——專為編程代理設計的自適應上下文修剪框架。受程式設計師在開發除錯時「選擇性略讀」原始碼的啟發,SWE-Pruner能對長上下文執行任務感知的自適應修剪。代理根據當前任務制定明確目標(如「聚焦錯誤處理」)作為提示來引導修剪方向,並透過訓練輕量級神經略讀器(0.6B參數)實現根據目標動態篩選上下文相關程式碼行。在四項基準測試與多重模型驗證中,SWE-Pruner於各場景均展現顯著效能:在SWE-Bench Verified等代理任務實現23-54%的token削減,於LongCodeQA等單輪任務更達成14.84倍壓縮率,且對性能影響微乎其微。
標準的視覺-語言-行動模型通常會針對機器人控制任務,對單體式的視覺-語言模型骨幹進行微調。然而這種方法會在高層次通用語義理解能力與低層次精細感測運動技能學習之間產生嚴重衝突,往往導致模型出現開放世界能力的「災難性遺忘」。為解決此矛盾,我們提出TwinBrainVLA創新架構,通過協調保留通用語義理解能力的通才型VLM與專注於具身本體感知的專家型VLM,實現聯合機器人控制。該架構通過新型非對稱混合變換器機制,將保留強健通用視覺推理能力的凍結「左腦」與專精具身感知的可訓練「右腦」進行協同整合。此設計使右腦能動態從凍結左腦查詢語義知識,並與本體感知狀態融合,為流匹配動作專家模組生成精確連續控制指令提供豐富的條件資訊。在SimplerEnv與RoboCasa基準測試中的大量實驗表明,TwinBrainVLA在實現優越操作性能的同時,顯著保留了預訓練VLM的全面視覺理解能力,為構建同時具備高層次語義理解與低層次物理操作能力的通用機器人提供了可行方向。
現代視覺語言模型在多步驟視覺互動中的特性仍未被充分探討,特別是在長時序中如何整合感知、記憶與行動的機制。我們推出VisGym——一個包含17種測試環境的訓練場,用於評估與訓練視覺語言模型。該套件涵蓋符號推理謎題、真實圖像理解、導航及操作任務,並提供對難度級別、輸入表徵、規劃時長與反饋機制的靈活控制。我們同時提供能生成結構化示範的多步驟求解器,以實現監督式微調。評估結果顯示,所有前沿模型在互動情境中均表現不佳,在簡單配置(46.6%)與困難配置(26.0%)下的成功率均偏低。實驗揭示明顯侷限性:模型難以有效利用長上下文,使用無限制歷史記錄的表現反而比截斷窗口更差。此外,我們發現若干基於文本的符號任務在轉化為視覺形式後難度顯著提升。然而,在部分可觀測或動態未知的設定中,透過明確的目標觀察、文本反饋以及探索性示範進行監督式微調,能帶來持續性效能提升,這為改進多步驟視覺決策指明了具體失效模式與優化路徑。相關程式碼、資料與模型可參見:https://visgym.github.io/。
近期基礎影片到影片擴散模型在編輯使用者提供的影片方面取得了令人矚目的成果,能夠修改外觀、動作或攝影機運動。然而,真實世界的影片編輯往往是個迭代過程,使用者需要透過多輪互動來精修結果。在這種多輪編輯情境下,現有影片編輯工具難以維持連續編輯間的跨幀一致性。本研究首次針對多輪影片編輯中的跨一致性問題提出解決方案,引入Memory-V2V——一個簡單而有效的框架,通過顯式記憶機制增強現有影片到影片模型。該框架利用外部快取儲存先前編輯過的影片,採用精確檢索與動態標記化策略,使當前編輯步驟能基於過往結果進行條件生成。為進一步減少冗餘與計算開銷,我們在DiT骨幹網路中設計可學習的標記壓縮器,能在保留關鍵視覺線索的同時壓縮冗餘條件標記,實現整體30%的加速效果。我們在影片新視角合成和文字條件長影片編輯等挑戰性任務上驗證Memory-V2V。大量實驗表明,該方法能以最小計算開銷生成顯著提升跨一致性的影片,同時在任務特定性能上保持甚至超越現有頂尖基準方法。專案頁面:https://dohunlee1.github.io/MemoryV2V
深度研究智能體(DRA)領域的最新進展正在重塑自動化知識發現與問題解決的範式。當前多數研究側重於透過後訓練增強策略能力,而我們提出了一種替代路徑:基於精心設計的評估準則,透過迭代驗證策略模型的輸出來實現智能體的自我進化。這種方法催生了驗證環節的推理時擴展機制,使智能體能透過評估自身生成的答案來產生迭代反饋與改進方案。我們基於自動構建的「DRA失敗分類法」推導出評估準則,該分類法將智能體失敗系統性歸納為5大類別與13個子類別。本文提出DeepVerifier——一種基於準則的結果獎勵驗證器,其利用驗證過程中的非對稱性,在元評估F1分數上較基礎的智能體自評與LLM評判基準提升12%-48%。為實現實用化自我進化,DeepVerifier以即插即用模組形式整合於測試時推理流程。該驗證器生成具細粒度準則的反饋,回傳至智能體進行迭代式自舉優化,無需額外訓練即可精煉回應。在採用高性能閉源LLM驅動時,此推理時擴展機制於GAIA與XBench-DeepResearch的挑戰性子集上實現8%-11%的準確率提升。最後,為促進開源生態發展,我們發布DeepVerifier-4K:一個包含4,646個高質量智能體步驟的監督微調數據集,專注於DRA驗證任務。這些範例強調反思與自我批判能力,助力開源模型發展出強健的驗證機制。
強化學習(RL)對於提升大型語言模型(LLM)的複雜推理能力至關重要。然而,現有的RL訓練流程存在計算效率低、資源消耗大的問題,其中推演階段佔總訓練時間的70%以上。採用FP8精度的量化RL訓練為緩解此瓶頸提供了可行方案。當前主流策略是在推演階段使用FP8精度,同時保持訓練階段的BF16精度。本研究首次對FP8 RL訓練進行系統性分析,發現廣泛採用的「BF16訓練+FP8推演」策略在長序列推演和複雜任務中會出現嚴重的訓練不穩定與準確率崩塌現象。分析表明,該策略因脫機學習特性導致訓練與推斷階段的數值失配,進而引發上述問題。基於此發現,我們提出Jet-RL框架,採用訓練與推演統一的FP8精度流,最大限度減少數值差異並消除低效的步間校準需求。大量實驗驗證了Jet-RL的有效性:相較BF16訓練,我們的方法在推演階段實現最高33%的加速,訓練階段最高41%的加速,端到端提速達16%,且在所有設定下均保持穩定收斂,準確率損失可忽略不計。
尽管人工智能已深度融入科研工作流程的各个环节并取得显著进展,学术反驳仍是一个重要却尚未被充分探索的挑战。这是因为反驳并非简单的技术辩论,而是在严重信息不对称下进行策略性沟通的复杂过程。现有方法因主要模仿表层语言特征而难以奏效,未能把握有效说服所需的核心要素——观点采择能力。本文提出首个基于心理理论(ToM)的学术反驳框架RebuttalAgent,通过"心理状态-策略-响应"(TSR)三级流水线实现操作化,依次建模审稿人心理状态、制定说服策略并生成策略导向的回应。为训练智能体,我们采用新型的"批判-优化"方法构建了大规模数据集RebuttalBench。训练过程分为两个阶段:首先通过监督微调使智能体掌握基于心理理论的分析与策略规划能力,随后利用自奖励机制进行强化学习以实现规模化自我改进。为建立可靠高效的自动评估体系,我们进一步开发了基于10万条多源反驳数据训练的专业评估器Rebuttal-RM,其评分一致性超越强基准GPT-4.1,更贴合人类偏好。大量实验表明,RebuttalAgent在自动评估指标上较基础模型平均提升18.3%,同时在自动与人工评估中均优于先进专有模型。免责声明:生成的反驳内容仅供启发作者思路、辅助起草使用,不能替代作者自身的批判性分析与回应。
擴散轉換器近期在影片生成領域展現出卓越性能。然而,由於全注意力機制的二次方計算複雜度,長輸入序列會導致高昂的計算延遲。現有多種稀疏注意力機制被提出:無需訓練的稀疏注意力受限於稀疏度不足,僅能實現有限加速;而基於訓練的方法雖可達到更高稀疏度,卻需要大量數據和計算資源進行訓練。本研究提出SALAD方法,在稀疏注意力旁並行引入輕量級線性注意力分支。透過輸入依賴的門控機制精細調控雙分支權衡,我們的方法在維持與全注意力基準相當的生成質量同時,實現了90%的稀疏度與1.72倍推理加速。此外,我們的微調流程極具效率,僅需2,000個影片樣本、以批次大小8進行1,600步訓練即可完成。
数据科学智能体承诺通过将数据转化为可执行的分析与发现,来加速科学发现和洞察生成。然而现有数据科学基准测试因存在评估接口碎片化导致跨基准比较困难、任务覆盖范围狭窄以及缺乏严谨数据基础等缺陷。我们特别指出,当前基准测试中相当部分任务无需使用真实数据即可解决。为应对这些局限,我们推出DSGym——一个在自洽执行环境中评估和训练数据科学智能体的标准化框架。与静态基准不同,DSGym采用模块化架构,可轻松扩展任务、智能体脚手架和工具,使其成为具有生命力的可扩展测试平台。我们精心构建了DSGym-Tasks综合任务套件,通过质量和捷径可解性筛选对现有基准进行标准化优化。我们进一步通过以下方式拓展覆盖范围:(1) DSBio:基于文献构建的专家级生物信息学任务;(2) DSPredict:涵盖计算机视觉、分子预测和单细胞扰动等领域的挑战性预测任务。除评估功能外,DSGym还支持通过执行验证的数据合成流程进行智能体训练。作为案例研究,我们构建了包含2,000个样本的训练集,并在DSGym中训练出性能超越GPT-4o的40亿参数模型。总体而言,DSGym实现了对智能体能否在真实科学场景中规划、实施和验证数据分析的端到端严谨评估。
在多智能體環境中進行戰略決策,是大型語言模型(LLMs)面臨的關鍵挑戰,尤其當協調與談判需透過長時間對話展開時。儘管近期研究已探索LLMs在獨立決策任務中的應用,但鮮少關注如何透過對話優化長期目標。我們提出GameTalk框架,透過多輪互動訓練LLMs進行戰略決策。有別於過往聚焦單輪目標或靜態行動預測的研究,我們訓練LLMs在完整對話中優化全局目標。為實現此目標,我們採用GRPO、DPO和STaR等微調方法,整合依賴整體互動的回饋信號。我們在一系列複雜度遞增的遊戲中評估此方法,這些遊戲專為檢驗推理、協調與對手建模等不同面向而設計。實驗結果表明,GameTalk顯著優化未經訓練的模型,尤其在獎勵塑形條件下表現突出,其中DPO持續帶來最強效能增益。這些發現將對話式微調定位為LLMs在互動環境中進行推理、談判與行動的可行發展路徑。
近年来的研究进展已使大语言模型在棋盘游戏中的角色从游戏代理扩展至创意协同设计者。然而当前系统存在关键缺陷:缺乏基于涌现式用户体验的建构性批评能力。弥补这一差距对协调人机协作至关重要,既能通过外部视角助力设计师优化创作,又可引导模型规避偏见或不可预测的结果。棋盘游戏批评自动化面临双重挑战:在缺乏显式引擎的情况下推断规则与玩法间的潜在动态关联,以及建模不同玩家群体的主观异质性。为此,我们构建了包含1,727份结构校正规则书和15万条经质量评分与多维度采样筛选的评论数据集,并引入机制-动态-美学框架进行数据增强,显式弥合书面规则与玩家体验间的因果鸿沟。我们进一步提炼玩家画像,提出MeepleLM模型——该专用模型通过内化特定画像的推理模式,能精准模拟不同玩家原型的个性化反馈。实验表明,MeepleLM在社区契合度与批评质量上显著优于最新商用模型(如GPT-5.1、Gemini3-Pro),在效用评估用户研究中获得70%的偏好率。该模型可作为通用交互系统的可靠虚拟试玩员,标志着向受众对齐、体验感知型人机协作迈出关键一步。
本文提出Mecellem模型框架,通过领域自适应策略开发土耳其法律领域的专业化语言模型。我们贡献包括:(1)从头预训练的编码器模型:基于ModernBERT的双向编码器,在1127亿以土耳其语为主的语料库上预训练。我们实施检查点选择策略,通过训练全程评估下游检索性能,发现最优检查点在预训练损失达到最小值前即可获得最佳检索分数。我们的编码器模型在土耳其检索排行榜位列前三,较小模型(1.55亿参数)性能可媲美更大参考模型(3.07亿-5.67亿参数)。相比最先进模型,我们的方法实现92.36%的生产效率(embeddinggemma-300m:100.00%,BAAI/bge-m3:99.54%,newmindai/bge-m3-stsb:94.38%),尽管计算资源需求更低仍位列第四。SOTA模型依赖多阶段计算密集型训练流程,而我们采用单阶段预训练结合高效后训练的方法,形成更具成本效益的替代方案;(2)持续预训练的解码器模型:通过受控课程学习将Qwen3-1.7B和Qwen3-4B模型适配土耳其法律领域。四阶段持续预训练配合最优样本比例,实现从通用语言知识到专业法律术语及长上下文推理的渐进式过渡。该方法在土耳其法律文本上困惑度降低36.2%,彰显领域自适应效益。
图表推理是视觉语言模型(VLM)的关键能力。然而,开源模型的发展正因缺乏高质量训练数据而严重受阻。现有数据集面临双重挑战:合成图表往往过于简单且重复,而关联的问答对容易出现幻觉问题,缺乏复杂任务所需的推理深度。为弥补这一空白,我们提出ChartVerse——一个从零开始合成复杂图表与可靠推理数据的可扩展框架。(1)针对模式单一的瓶颈,我们首先提出展开后验熵(RPE)这一量化图表复杂度的新指标。在RPE指导下,我们开发了复杂度感知图表编码器,通过可执行程序自主合成多样化、高复杂度的图表。(2)为确保推理严谨性,我们开发了真值锚定的逆向问答合成方法。区别于标准生成流程,我们采用答案优先范式:直接从源代码提取确定性答案,基于这些锚点生成问题,并执行严格的一致性验证。为进一步提升难度与推理深度,我们根据模型失败率筛选样本,并提炼高质量思维链推理数据。基于Qwen3-VL-30B-A3B-Thinking作为教师模型,我们构建了ChartVerse-SFT-600K和ChartVerse-RL-40K数据集。实验结果表明,ChartVerse-8B实现了最先进的性能,显著超越其教师模型,并与更强的Qwen3-VL-32B-Thinking相媲美。
环境是自我改进智能体的发展瓶颈。现有终端基准测试集仅为评估而设计,无法满足训练需求;强化学习需要可扩展的流程管道,而非单纯的数据集。我们推出Endless Terminals——一个无需人工标注、能够程序化生成终端使用任务的自主管道系统。该管道包含四个阶段:生成多样化任务描述、构建并验证容器化环境、设计完成度测试、以及筛选可解任务。通过此管道,我们获得了涵盖文件操作、日志管理、数据处理、脚本编写和数据库操作等领域的3255项任务。我们采用原始PPO算法配合二元回合奖励机制进行智能体训练,仅保留最小交互循环:不包含检索功能、多智能体协作或专用工具。尽管设计极简,基于Endless Terminals训练的模型仍实现显著提升:在预留开发集上,Llama-3.2-3B准确率从4.0%升至18.2%,Qwen2.5-7B从10.7%跃至53.3%,Qwen3-8B-openthinker-sft则由42.6%提升至59.0%。这种改进同样体现在人工标注基准测试中:在TerminalBench 2.0上,Llama-3.2-3B从0.0%提升至2.2%,Qwen2.5-7B从2.2%增至3.4%,Qwen3-8B-openthinker-sft从1.1%上升至6.7%,所有模型均优于采用复杂智能体框架的其他方案。这些结果表明:当环境实现规模化扩展时,简易强化学习便能取得成功。
大型语言模型(LLMs)面临"知识截止"挑战,其固化的参数化记忆无法直接内化新信息。虽然监督微调(SFT)常被用于更新模型知识,但这种方法往往只更新事实内容,却无法可靠提升模型运用新知识进行问答或决策的能力。强化学习(RL)对培养推理能力至关重要,但其高昂的计算成本使其难以实现高效的在线适应。我们通过实证发现,SFT和RL引发的参数更新近乎正交。基于此观察,我们提出参数化技能迁移(PaST)框架,通过模块化技能转移实现高效的知识适应。通过从源领域提取领域无关的技能向量,我们可在目标模型完成新数据轻量级SFT后,线性注入知识操纵技能。在知识整合问答(SQuAD、LooGLE)和智能体工具使用基准(ToolBench)上的实验证明了方法的有效性:在SQuAD上,PaST较最先进的自我编辑SFT基线提升达9.9分;在LooGLE长上下文问答中实现8.0分的绝对准确率增益;在ToolBench上零样本成功率平均提升10.3分,且跨工具类别表现一致,表明技能向量具有强扩展性和跨领域迁移能力。
精准的病理图像语义分割对于定量组织分析及下游临床建模至关重要。现有的分割基础模型通过大规模预训练提升了泛化能力,但由于将分割视为静态视觉预测任务,仍与病理学需求存在偏差。本文提出VISTA-PATH——一个支持交互的类别感知病理分割基础模型,其设计目标包括解析异质性结构、整合专家反馈,并生成对临床诊断具有直接意义的像素级分割结果。该模型通过联合建模视觉上下文、语义组织描述及可选的专家空间提示,实现跨异质性病理图像的精确实时多类分割。为支撑此范式,我们构建了VISTA-PATH数据集,该大规模病理分割语料库涵盖9个器官、93种组织类型,包含超160万图像-掩码-文本三元组。在大量留出测试集与外部基准评估中,VISTA-PATH均显著优于现有分割基础模型。值得注意的是,该模型支持动态人机协同优化,可将稀疏的斑块级边界框标注反馈传播至全玻片分割。最终我们证明,VISTA-PATH产生的高保真类别感知分割结果可作为计算病理学的优选模型:通过提出的肿瘤互作评分(TIS)提升组织微环境分析效能,该指标与患者生存期呈现显著相关性。综上,VISTA-PATH将病理图像分割从静态预测提升为基于临床实践的交互式表征,为数字病理学奠定了新基础。源代码与演示见https://github.com/zhihuanglab/VISTA-PATH。
大型语言模型(LLM)当前已被广泛应用于各类软件工程任务,其中代码生成是主要应用场景。已有研究表明,恰当的提示工程能够有效帮助开发者优化代码生成提示。然而迄今为止,业界仍缺乏专门指导开发者编写高质量代码生成提示的规范。本研究提出并评估了针对开发场景的提示优化指南。我们首先采用迭代式测试驱动方法自动优化代码生成提示,通过分析优化过程中通过测试的提示改进项,归纳出10项提示优化准则,涉及输入输出规范、前后置条件说明、示例提供、细节补充及模糊点澄清等方面。通过对50名开发者的调研评估,我们发现其在获知本指南前后的实际应用模式与感知效用存在差异。研究结果不仅对开发实践者和教育工作者具有指导意义,也为开发更优质的LLM辅助软件开发工具提供了重要参考。