每日精选AI研究论文及翻译
我们推出LongCat-Flash-Thinking-2601——一个拥有5600亿参数的开源专家混合推理模型,具备卓越的智能体推理能力。该模型在包括智能体搜索、智能体工具使用及工具集成推理在内的广泛智能体基准测试中,实现了开源模型领域的顶尖性能。除基准表现外,该模型还展现出对复杂工具交互的强大泛化能力,以及在嘈杂现实环境下的稳健行为。其先进能力源于统一训练框架,该框架结合了领域并行专家训练与后续融合技术,并实现了从预训练到后训练阶段数据构建、环境、算法及基础设施的端到端协同设计。特别是模型在复杂工具使用方面的强大泛化能力,得益于我们对环境扩展与原则性任务构建的深入探索。为优化长尾偏态生成与多轮智能体交互,并实现跨越20余个领域、超10000个环境的稳定训练,我们系统化扩展了异步强化学习框架DORA,以支持稳定高效的大规模多环境训练。此外,基于现实任务固有嘈杂性的认知,我们系统分析解构了现实噪声模式,并设计针对性训练流程将此类不完美因素显式纳入训练过程,从而提升现实应用的鲁棒性。为进一步增强复杂推理任务性能,我们引入深度思考模式,通过密集并行思维协同扩展推理深度与宽度,实现有效的测试时扩展。
大型语言模型智能体在软件开发领域展现出卓越能力,但其性能受限于长交互上下文导致的高API成本与延迟。尽管已有LongLLMLingua等多种上下文压缩方法应对这一挑战,但这些方法通常依赖PPL等固定指标,忽略了代码理解的任务特定性。这往往导致语法逻辑结构被破坏,关键实现细节丢失。本文提出SWE-Pruner——专为编码智能体设计的自适应上下文剪枝框架。受程序员在开发调试过程中"选择性略读"源代码的启发,SWE-Pruner对长上下文执行任务感知的自适应剪枝。面对当前任务,智能体会将显式目标(如"关注错误处理")转化为提示词来指导剪枝目标。我们训练了一个轻量级神经略读器(0.6B参数),能够根据目标动态筛选上下文中的相关代码行。在四个基准测试和多个模型上的评估表明,SWE-Pruner在各种场景中均表现优异:在SWE-Bench Verified等智能体任务上实现23-54%的token缩减,在LongCodeQA等单轮任务中达到14.84倍压缩比,且对性能影响微乎其微。
标准视觉-语言-动作(VLA)模型通常通过微调单一视觉-语言模型(VLM)主干网络来实现机器人控制。然而,这种方法在保持高层次通用语义理解与学习低层次精细感知运动技能之间形成了尖锐矛盾,常导致模型出现开放世界能力的"灾难性遗忘"。为解决这一冲突,我们提出TwinBrainVLA——一种创新架构,通过协调保留通用语义理解的通用VLM与专精于具身本体感知的专用VLM,实现联合机器人控制。该架构通过新型非对称混合变换器(AsyMoT)机制,将保持强健通用视觉推理能力的冻结"左脑"与专攻具身感知的可训练"右脑"相融合。这种设计使得右脑能够动态查询冻结左脑的语义知识,并将其与本体感知状态结合,为流匹配动作专家生成精确连续控制提供丰富条件。在SimplerEnv和RoboCasa基准测试上的大量实验表明,TwinBrainVLA在实现卓越操作性能的同时,显式保留了预训练VLM的全面视觉理解能力,为构建同时具备高层次语义理解与低层次物理灵巧性的通用机器人指明了可行路径。
现代视觉语言模型(VLM)在多步视觉交互中的特性仍不明确,尤其是在长时程任务中如何整合感知、记忆与行动方面。我们推出VisGym——一个包含17个测试环境的训练场,用于评估和训练VLM。该套件涵盖符号推理、实景图像理解、导航与操作任务,并提供对难度级别、输入表征、规划时域和反馈机制的灵活控制。我们还提供可生成结构化演示的多步求解器,支持监督式微调。评估表明,所有前沿模型在交互场景中表现均不理想,在简单(46.6%)与困难(26.0%)配置下的成功率均较低。实验揭示出显著局限:模型难以有效利用长上下文,无限制历史窗口的表现反而差于截断窗口;此外,多个基于文本的符号任务在视觉化呈现后难度显著提升。然而,在部分可观测或动态未知场景中,通过显式目标观察、文本反馈和探索性演示进行监督微调可带来稳定提升,这为改进多步视觉决策指明了具体失效模式与优化路径。代码、数据及模型详见:https://visgym.github.io/。
近期基于基础架构的视频到视频扩散模型在编辑用户提供视频方面取得了显著成果,能够实现外观、运动或摄像机运动的修改。然而,现实中的视频编辑通常是一个迭代过程,用户需要通过多轮交互来优化结果。在这种多轮编辑场景下,现有视频编辑器难以保持序列编辑间的跨时序一致性。本研究首次针对多轮视频编辑中的跨一致性问题提出解决方案,引入Memory-V2V——一个通过显式记忆机制增强现有视频到视频模型的简洁而有效的框架。该框架通过建立已编辑视频的外部缓存库,采用精准检索与动态标记化策略,使当前编辑步骤能够基于先前结果进行条件生成。为减少冗余计算开销,我们进一步在DiT主干网络中设计了可学习的标记压缩器,在保留关键视觉线索的同时压缩冗余条件标记,实现整体30%的加速效果。我们在视频新视角合成和文本条件长视频编辑等挑战性任务上验证了Memory-V2V的性能。大量实验表明,该方法在保持甚至超越现有最优基线模型任务性能的同时,能以最小计算开销生成具有显著跨时序一致性的视频。项目页面:https://dohunlee1.github.io/MemoryV2V
近期深度研究智能体(DRA)的突破性进展正在重塑自动化知识发现与问题解决的范式。尽管现有研究大多聚焦于通过后训练增强策略能力,我们提出了一种创新路径:基于精心设计的评估准则,通过迭代验证策略模型的输出实现智能体的自我进化。该方法催生了验证机制的推理时扩展,使智能体能够通过评估自身生成的答案来产生迭代反馈与优化。我们基于自动构建的DRA失败分类法推导出评估准则,该系统将智能体失败案例划分为5个主类和13个子类。我们提出的DeepVerifier是一种基于准则的结果奖励验证器,它利用验证过程的不对称性,在元评估F1分数上以12%-48%的优势超越了传统智能体自判和LLM评判基线。为实现实用化自我进化,DeepVerifier以即插即用模块形式集成于测试时推理流程。该验证器生成基于细则的详细反馈,并反馈给智能体进行迭代自举优化,无需额外训练即可提升响应质量。当搭载高性能闭源LLM时,这种测试时扩展机制在GAIA和XBench-DeepResearch的挑战性子集上实现了8%-11%的准确率提升。为促进开源生态发展,我们同步发布了DeepVerifier-4K——一个包含4,646个高质量智能体步骤的监督微调数据集。这些案例着重体现反思与自我批判能力,助力开源模型发展出强大的验证能力。
强化学习(RL)对于增强大语言模型(LLM)的复杂推理能力至关重要。然而,现有的RL训练流程存在计算效率低、资源消耗大的问题,其中推演阶段耗时占比超过总训练时长的70%。采用FP8精度的量化RL训练为缓解这一瓶颈提供了可行路径。当前主流策略是在推演阶段使用FP8精度,同时保持训练阶段的BF16精度。本研究首次对FP8强化学习训练展开系统性探索,发现广泛采用的"BF16训练+FP8推演"方案在长序列推演和复杂任务中会出现严重训练失稳及灾难性精度崩塌。分析表明,该方法的离策略特性导致训练与推理阶段存在显著数值失配。基于此,我们提出Jet-RL框架——采用训练与推演统一的FP8精度流,最大限度减少数值差异并消除低效的步间校准机制。大量实验验证了Jet-RL的有效性:相较BF16训练,我们的方法在推演阶段实现最高33%加速,训练阶段最高41%加速,端到端提速达16%,且在所有设定下均保持稳定收敛,精度损失可忽略不计。
尽管人工智能已深度融入科研工作流的各个环节并取得显著进展,学术反驳环节仍是重要却尚未充分探索的挑战。这源于反驳本质上是在严重信息不对称下进行的策略性沟通过程,而非简单的技术辩论。现有方法因大多停留在表层语言模仿,缺乏有效说服所需的核心要素——观点采择能力,故而难以突破。本文提出首个基于心智理论(ToM)的学术反驳框架RebuttalAgent,通过"心智状态建模-策略制定-策略响应"的三阶管道,将反驳任务具象化为审稿人心理状态模拟、说服策略构建及策略驱动响应生成的完整流程。为训练智能体,我们采用创新的批判优化法构建了大规模数据集RebuttalBench,训练过程包含两个阶段:首先通过监督微调赋予智能体基于心智理论的分析与策略规划能力,继而利用自奖励机制进行强化学习以实现规模化自我优化。针对自动化评估需求,我们进一步开发了基于10万条多源反驳数据训练的专业评估器Rebuttal-RM,其评分一致性已超越强基准GPT-4.1,更贴近人类偏好。大量实验表明,RebuttalAgent在自动化指标上平均领先基线模型18.3%,同时在自动与人工评估中均优于先进闭源模型。免责声明:生成的反驳内容仅供启发作者思路、辅助起草使用,不能替代作者自身的批判性分析与回应。
扩散变换器在视频生成领域近期展现出卓越性能。然而,由于全注意力机制的二次复杂度,长输入序列会导致高昂的计算延迟。现有研究提出了多种稀疏注意力机制:免训练的稀疏注意力受限于稀疏度上限,加速效果有限;而基于训练的方法虽能达到更高稀疏度,但需要大量数据和计算资源进行训练。本研究提出SALAD方法,通过在稀疏注意力旁并行引入轻量级线性注意力分支,并采用输入依赖的门控机制精细平衡双支路输出,实现了90%的稀疏度和1.72倍推理加速,同时保持与全注意力基线相当的生成质量。此外,我们的微调过程极具效率,仅需2,000个视频样本和1,600个训练步数(批大小为8)。
数据科学智能体承诺通过将数据转化为可执行的分析与发现,从而加速科学发现和洞察生成。然而现有数据科学基准测试因存在评估接口碎片化导致跨基准对比困难、任务覆盖范围狭窄、缺乏严谨数据基础等缺陷。我们特别指出,当前基准测试中相当比例的任务无需使用真实数据即可解决。为突破这些局限,我们推出DSGym——一个在自包含执行环境中评估和训练数据科学智能体的标准化框架。与静态基准不同,DSGym采用模块化架构,可便捷添加任务、智能体框架和工具,使其成为可动态扩展的测试平台。我们精心构建了DSGym-Tasks综合任务套件,通过质量筛选和捷径可解性过滤对现有基准进行标准化优化。通过以下方式进一步拓展覆盖范围:(1) DSBio:基于文献构建的专家级生物信息学任务;(2) DSPredict:涵盖计算机视觉、分子预测和单细胞扰动等领域的挑战性预测任务。除评估功能外,DSGym还通过执行验证的数据合成流程支持智能体训练。作为案例研究,我们构建了包含2,000个样本的训练集,在DSGym中训练出的40亿参数模型在标准化分析基准上超越了GPT-4o的表现。总体而言,DSGym实现了对智能体能否在真实科学场景中规划、实施和验证数据分析的严格端到端评估。
在多智能体环境中进行战略决策是大型语言模型面临的关键挑战,尤其在需要通过多轮对话实现协作与协商的场景下。尽管近期研究探索了LLM在独立决策任务中的应用,但如何通过对话优化长期目标的研究仍属空白。我们提出GameTalk框架,通过多轮交互训练LLM进行战略决策。与以往聚焦单轮目标或静态动作预测的研究不同,我们训练LLM在整个对话过程中优化全局目标。通过改进GRPO、DPO和STaR等微调方法,使其能够融合依赖完整交互过程的奖励信号。我们在系列复杂度递增的博弈环境中评估该方法,这些环境专门用于检验推理、协作和对手建模等不同能力。实验结果表明,GameTalk显著优于未训练模型,尤其在奖励塑形条件下表现突出,其中DPO方法持续带来最大性能提升。这些发现表明,对话式微调是实现LLM在交互环境中推理、协商与行动的有效路径。
近期研究进展已将大语言模型在棋盘游戏中的角色从游戏代理扩展至创意协同设计者。然而当前系统存在关键缺陷:缺乏基于 emergent 用户体验的建构性批判能力。弥补这一差距对实现人机协作和谐至关重要,它既能通过外部视角助力设计师完善创作,又可引导模型规避偏见或不可预测的结果。棋盘游戏自动批判面临双重挑战:在缺乏显式引擎的情况下推断规则与游戏体验间的潜在动态关联,以及建模不同玩家群体的主观异质性。为此,我们构建了包含1,727份结构校正规则书和15万条经质量评分与多维度采样筛选的评论数据集,并引入机制-动态-美学(MDA)推理框架显式弥合书面规则与玩家体验间的因果鸿沟。我们进一步提炼玩家画像,提出MeepleLM模型——该专用模型内化了基于画像的推理模式,能精准模拟不同玩家原型的主观反馈。实验表明,MeepleLM在社区契合度与批判质量上显著优于最新商用模型(如GPT-5.1、Gemini3-Pro),在实用性评估的用户研究中获得70%的偏好率。该模型可作为通用交互系统的可靠虚拟试玩员,标志着向受众对齐、体验感知型人机协作迈出关键一步。
本文提出Mecellem模型框架,该框架通过领域自适应策略为土耳其法律领域开发专用语言模型。我们贡献包括:(1)从头预训练的编码器模型:基于ModernBERT的双向编码器,在1127亿土耳其语主导的语料库上预训练。我们实施检查点选择策略,通过训练全程评估下游检索性能,发现最优检查点在预训练损失达到最小值前即可获得最佳检索分数。我们的编码器模型在土耳其检索排行榜位列前三,较小模型(1.55亿参数)与更大参考模型(3.07亿-5.67亿参数)性能相当。相比最先进模型,我们的方法实现92.36%的生产效率(embeddinggemma-300m:100.00%,BAAI/bge-m3:99.54%,newmindai/bge-m3-stsb:94.38%),尽管计算资源需求更低仍位列第四。SOTA模型依赖计算密集型多阶段训练流程,而我们的单阶段预训练加高效后训练方法成为具成本效益的替代方案;(2)持续预训练解码器模型:通过受控课程学习将Qwen3-1.7B和Qwen3-4B模型适配土耳其法律领域。四阶段持续预训练配合最优样本比例,实现从通用语言知识到专业法律术语及长上下文推理的渐进过渡。该方法在土耳其法律文本上困惑度降低36.2%,彰显领域自适应优势。
图表推理是视觉语言模型(VLMs)的核心能力。然而,开源模型的发展正受到高质量训练数据匮乏的严重制约。现有数据集面临双重挑战:合成图表往往过于简单且重复,而关联的问答对容易出现幻觉现象,缺乏复杂任务所需的推理深度。为弥补这一空白,我们提出ChartVerse——一个可扩展的框架,旨在从零开始合成复杂图表及可靠推理数据。(1) 针对简单模式瓶颈,我们首次提出展开后验熵(RPE)这一量化图表复杂度的新指标。在RPE引导下,开发复杂度感知图表编码器,通过可执行程序自主合成多样化高复杂度图表。(2) 为确保推理严谨性,我们开发真值锚定逆向问答合成方案。区别于标准生成流程,采用答案优先范式:直接从源代码提取确定性答案,基于这些锚点生成问题,并执行严格的一致性验证。为提升难度与推理深度,我们根据模型失败率筛选样本,并提炼高质量思维链推理数据。以Qwen3-VL-30B-A3B-Thinking作为教师模型,我们最终构建了包含60万条数据的ChartVerse-SFT数据集和4万条数据的ChartVerse-RL数据集。实验表明,ChartVerse-8B实现了最先进的性能,显著超越其教师模型,并与更强的Qwen3-VL-32B-Thinking模型相媲美。
环境是自我改进智能体的发展瓶颈。现有终端基准仅为评估而设计,无法满足训练需求;强化学习需要可扩展的流水线,而非单纯的数据集。我们推出"无尽终端"——一个无需人工标注、能够程序化生成终端使用任务的自主流水线。该流水线包含四个阶段:生成多样化任务描述、构建验证容器化环境、设计完成度测试、以及筛选可解任务。通过该流程,我们获得了涵盖文件操作、日志管理、数据处理、脚本编写和数据库操作等领域的3255项任务。我们采用原始PPO算法配合二元回合奖励机制进行智能体训练,仅保留最小交互循环:不引入检索机制、多智能体协同或专用工具。尽管设计极简,在无尽终端上训练的模型仍取得显著提升:在保留开发集上,Llama-3.2-3B从4.0%提升至18.2%,Qwen2.5-7B从10.7%提升至53.3%,Qwen3-8B-openthinker-sft从42.6%提升至59.0%。这种提升同样体现在人工标注基准上:在TerminalBench 2.0测试中,经无尽终端训练的Llama-3.2-3B从0.0%提升至2.2%,Qwen2.5-7B从2.2%提升至3.4%,Qwen3-8B-openthinker-sft从1.1%提升至6.7%,各项结果均优于采用复杂智能体框架的对比方案。这些成果证明:当环境实现规模化扩展时,简易强化学习也能取得显著成效。
大型语言模型面临"知识截止"挑战,其固化的参数化记忆阻碍了新信息的直接内化。虽然监督微调常用于更新模型知识,但这种方法往往只更新事实内容,未能可靠提升模型运用新知识进行问答或决策的能力。强化学习对培养推理能力至关重要,但其高昂的计算成本使得在线高效适配难以实现。我们通过实证发现,监督微调与强化学习引发的参数更新近乎正交。基于此发现,我们提出参数化技能迁移框架,通过模块化技能转移实现高效的知识适配。该框架从源领域提取领域无关的技能向量,在对目标模型进行新数据轻量级微调后,可线性注入知识操纵技能。在知识融合问答和智能体工具使用基准测试上的实验验证了方法的有效性:在SQuAD数据集上,我们的方法较最先进的自我编辑式监督微调基线提升达9.9分;在LooGLE长文本问答任务中实现8.0分的绝对准确率提升;在ToolBench工具使用基准上平均零样本成功率提高10.3分,且在不同工具类别间均保持稳定增益,表明技能向量具备优秀的可扩展性与跨领域迁移能力。
精准的病理图像语义分割对于定量组织分析及下游临床建模至关重要。现有的分割基础模型通过大规模预训练提升了泛化能力,但由于将分割视为静态视觉预测任务,仍与病理学需求存在偏差。本文提出VISTA-PATH——一个支持交互的类别感知病理分割基础模型,能够解析异质性结构、整合专家反馈,并生成对临床诊断具有直接意义的像素级分割结果。VISTA-PATH通过联合建模视觉上下文、语义组织描述及可选的专家空间提示,实现跨异质性病理图像的精确实时多类分割。为支撑该范式,我们构建了VISTA-PATH数据集,这是一个包含超过160万张图像-掩码-文本三元组的大规模病理分割语料库,涵盖9个器官和93种组织类型。在大量预留测试集和外部基准上的实验表明,VISTA-PATH持续优于现有分割基础模型。值得注意的是,该模型支持动态人机协同优化,可将稀疏的局部边界框标注反馈传播至全玻片分割。最终我们证明,VISTA-PATH产生的高保真类别感知分割是计算病理学的优选模型,其通过提出的肿瘤相互作用评分(TIS)提升肿瘤微环境分析能力,该评分与患者生存期呈现显著相关性。这些成果共同确立了VISTA-PATH作为基础模型的价值,将病理图像分割从静态预测提升为面向数字病理的交互式临床表征。源代码及演示见https://github.com/zhihuanglab/VISTA-PATH。
当前,大型语言模型(LLMs)已被广泛应用于各类软件工程任务,其中代码生成是主要应用场景。已有研究表明,恰当的提示工程能够有效帮助开发者优化代码生成提示。然而迄今为止,业界尚未形成专门指导开发者编写代码生成提示的规范框架。本研究通过推导和评估,提出了一套面向开发场景的提示优化指南。首先,我们采用迭代式测试驱动方法自动优化代码生成提示,并通过分析优化过程的结果,识别出能够通过测试的提示改进要素。基于这些要素,我们总结出10项提示改进指南,涉及输入输出规范、前置后置条件明确化、示例提供、多维度细节补充以及模糊概念澄清等方面。通过对50名从业者的调研评估,我们收集了他们对这些提示改进模式的使用频率及感知效用反馈,结果显示其实际使用情况与了解指南前的认知存在差异。本研究结论不仅对从业者和教育者具有指导意义,也为开发更优质的LLM辅助软件开发工具提供了方向性启示。