每日精选AI研究论文及翻译
尽管自主软件工程(SWE)智能体正在重塑编程范式,但目前存在"封闭世界"的局限性:它们试图从零开始或仅依赖本地上下文修复错误,却忽略了GitHub等平台上可获取的海量历史人类经验。现实世界中问题追踪数据的非结构化与碎片化特性,阻碍了对这些开放世界经验的获取。本文提出MemGovern框架,通过治理原始GitHub数据将其转化为智能体可操作的经验记忆。MemGovern采用经验治理机制将人类经验转化为智能体友好的经验卡片,并引入智能体经验搜索策略实现逻辑驱动的人类专业知识检索。通过生成13.5万张治理后的经验卡片,MemGovern在SWE-bench Verified基准上的问题解决率显著提升4.65%。作为即插即用方案,MemGovern为构建智能体友好型记忆基础设施提供了解决方案。
我们推出Solar Open,这是一款拥有1020亿参数的双语专家混合模型,专为资源稀缺语言设计。该模型通过解决三个相互关联的挑战,展示了构建具有竞争力大语言模型的系统化方法论。首先,针对资源稀缺语言训练数据不足的问题,我们合成了4.5万亿个高质量、领域特定且强化学习导向的标记数据。其次,我们通过渐进式课程学习协调这些数据,在20万亿标记规模上联合优化数据构成、质量阈值和领域覆盖。第三,为实现可扩展强化学习的推理能力,我们应用自主研发的SnapPO框架进行高效优化。在英语和韩语的基准测试中,Solar Open展现出具有竞争力的性能,验证了该方法论在资源稀缺语言人工智能开发中的有效性。
现有长时记忆基准大多采用多轮对话或合成用户历史数据,这使得检索性能难以准确衡量对个体的理解程度。我们推出\BenchName,一个基于长篇自传体叙事构建的可公开获取的基准测试。该测试通过行为、情境和内心独白为推断稳定动机与决策原则提供密集证据。\BenchName将每段叙事重构为具有闪回意识的时间锚定流,并通过涵盖事实回忆、主观状态归因和原则层面推理的证据链问题评估模型性能。在多样化叙事源上的实验表明,检索增强系统主要提升事实准确性,但在时间锚定解释和高级推理任务上错误持续存在,凸显了超越检索机制的记忆建模需求。我们的数据详见KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}。
近期,大型推理模型(LRM)向自主智能体的范式转变,对复杂多轮工具使用能力的需求日益迫切。然而,现有数据集和数据生成方法受限于静态预定义工具集,难以适应开放域人机协作的复杂性。为此,我们开发了基于LRM模拟器的自动化任务导向型多轮对话生成框架,通过动态生成高价值的领域专用工具来解决指定任务。但我们发现,纯粹任务导向的设计容易产生"单一任务解决"轨迹——智能体以最简交互完成目标,无法复现现实场景中常见的高轮次对话。为弥补这一差距,我们转向用户导向的模拟范式:通过将任务生成与模拟人类行为规则(如渐进式请求生成和逐轮反馈)的专用用户模拟器解耦,我们构建出更能体现现实世界问题迭代求解本质的、更真实的长程多轮对话。该生成管线作为可即插即用的通用模块,能从任意状态启动生成,确保扩展工具使用数据生产的高扩展性。此外,通过支持单轨迹内多任务完成,它可生成反映现实人机交互多维需求的高密度数据集。
构建能够进行灵巧操作的智能体,是实现机器人及数字环境中类人自动化水平的关键。然而,现有GUI智能体依赖离散的点击坐标预测(x,y),这限制了需要连续实时感知与调整的自由形式闭环轨迹操作(如拖动进度条)。本研究开发了ShowUI-π——首个基于流模型的GUI灵巧操作手,其核心设计包括:(一)统一离散-连续动作空间,将离散点击与连续拖拽整合于共享模型中,实现跨交互模式的灵活适配;(二)基于流的拖拽动作生成,通过轻量级动作专家模块从连续视觉观测中预测光标增量调整,确保轨迹平滑稳定;(三)拖拽训练数据与基准测试,我们手动采集并合成了涵盖五大领域(如PowerPoint、Adobe Premiere Pro)的2万条拖拽轨迹,并推出ScreenDrag基准,该基准包含全面的在线与离线评估方案,用于衡量GUI智能体的拖拽能力。实验表明,主流GUI智能体在ScreenDrag上表现仍不理想(如Operator得分13.27,最佳模型Gemini-2.5-CUA仅达22.18),而ShowUI-π以仅4.5亿参数实现了26.98的得分,既凸显了任务难度,也验证了方法的有效性。我们期待此项工作推动GUI智能体在数字世界中实现类人灵巧操控。代码已开源:https://github.com/showlab/showui-pi。
工具增强型智能体框架中的复杂推理本质上是长程任务,这会导致推理轨迹和临时工具产物不断累积,从而对大型语言模型的有限工作上下文造成压力。若无显式记忆机制,此类累积会破坏逻辑连续性并削弱任务对齐效果。这使得记忆不再仅是辅助性的效率考量,而成为维持长程推理中逻辑连贯与目标导向的核心组件。 我们提出MemoBrain——一种面向工具增强型智能体的执行记忆模型。该模型通过构建具备依赖感知能力的记忆系统,捕获推理过程中的关键中间状态及其逻辑关联。MemoBrain作为推理智能体的协同驾驶模块,在不阻断执行流程的前提下组织推理进度,并主动管理工作上下文。具体而言,它在固定上下文预算下执行三项核心操作:剪枝无效推理步骤、折叠已完成子轨迹、保留紧凑的高显著性推理主干。这些机制共同实现了对推理轨迹的显式认知控制,而非被动的上下文堆积。 我们在GAIA、WebWalker和BrowseComp-Plus等具有挑战性的长程基准测试上评估MemoBrain,实验结果表明该方法相较强基线模型取得了一致性提升。
强化学习在可验证结果的任务上显著提升了LLM智能体的性能,但在具有广阔解空间的开放式智能体任务(如复杂旅行规划)中仍面临挑战。由于此类任务缺乏客观事实标准,当前RL算法主要依赖为单个响应分配标量分数的奖励模型。我们认为这种逐点评分存在固有的判别力坍塌缺陷:奖励模型难以区分不同轨迹间的细微优势,导致组内分数被压缩至狭窄区间。 consequently,有效奖励信号被奖励模型的噪声主导,引发优化停滞。为此,我们提出ArenaRL——一种从逐点标量评分转向组内相对排序的强化学习范式。ArenaRL引入过程感知的成对评估机制,采用多级量规为轨迹分配细粒度相对分数。同时,我们构建组内对抗竞技场并设计基于锦标赛的排序方案,以获取稳定的优势信号。实证结果表明,所构建的种子队单败淘汰方案在仅需O(N)复杂度的前提下,实现了与O(N²)复杂度的全成对比较近乎等效的优势估计精度,达成了效率与精度的最优平衡。此外,针对开放式智能体缺乏全周期基准测试的问题,我们构建了Open-Travel和Open-DeepResearch两个高质量基准,其完整流程覆盖SFT、RL训练和多维评估。大量实验表明,ArenaRL显著优于标准RL基线,能使LLM智能体为复杂现实任务生成更鲁棒的解决方案。
我们推出Ministral 3系列模型——一组专为计算和内存受限场景设计的参数高效型稠密语言模型,提供三种参数量版本:30亿、80亿和140亿参数。每个尺寸均包含三个变体:面向通用场景的预训练基础模型、指令微调模型以及专攻复杂问题求解的推理模型。此外,我们首次公开通过级联蒸馏技术得到Ministral 3模型的方法论,该技术融合了迭代式剪枝与持续蒸馏训练。全系模型均具备图像理解能力,并以Apache 2.0许可证开源发布。
基于大语言模型的自主智能体正快速发展以处理多轮任务,但确保其可信度仍是关键挑战。可信度的核心支柱之一为校准能力,即智能体表达置信度的能力需与其实际表现可靠匹配。虽然静态模型的校准研究已较为成熟,但工具集成型智能工作流中的校准动态机制仍待深入探索。本研究系统考察了工具使用型智能体的言语化校准现象,揭示了由工具类型驱动的基础性置信度二分法则。具体而言,我们的先导研究发现:证据型工具(如网络搜索)会因检索信息的内在噪声引发系统性严重过度自信,而验证型工具(如代码解释器)可通过确定性反馈夯实推理过程从而缓解校准偏差。为全面提升跨工具类型的校准能力,我们提出了基于强化学习的微调框架,通过综合评估奖励设计方案,联合优化任务准确率与校准度。实验表明,经训练的智能体不仅实现了更优的校准表现,还展现出从本地训练环境到嘈杂网络场景、乃至数学推理等不同领域的强大泛化能力。我们的研究结果凸显了针对工具使用型智能体制定领域特异性校准策略的必要性。更广泛而言,这项工作为构建能在高风险现实部署中可靠传达不确定性的自感知智能体奠定了理论基础。
诸如SAM2等视频目标分割方法通过基于记忆的架构实现了强劲性能,但在视角剧烈变化时因依赖外观特征而表现不佳。传统3D实例分割方法虽能保持视角一致性,但需要相机位姿、深度图及昂贵的预处理流程。我们提出3AM这一训练时增强方案,将MUSt3R的3D感知特征集成至SAM2中。通过轻量级特征融合器,我们融合了MUStR3的多层级特征——这些特征编码了隐式几何对应关系。结合SAM2的外观特征,该模型实现了基于空间位置与视觉相似度的几何一致性识别。我们提出视场感知采样策略,确保帧序列观测空间一致的目标区域,从而建立可靠的3D对应学习机制。关键的是,本方法在推理时仅需RGB输入,无需相机位姿或预处理。在宽基线运动挑战数据集(ScanNet++、Replica)上,3AM显著超越SAM2及其扩展版本,在ScanNet++精选子集上分别达到90.6%交并比和71.7%正向交并比,较当前最优视频目标分割方法提升15.9和30.4个百分点。项目页面:https://jayisaking.github.io/3AM-Page/
检索增强生成技术面临一个权衡难题:将多篇文档拼接为长提示虽能实现跨文档推理,却会引发预填充瓶颈;而单独编码文档键值缓存虽可提升速度,但会割裂文档间交互。我们提出并行专家上下文解码(Pced),这一无需训练的新框架将证据聚合机制从注意力层转移至解码层。Pced将检索到的文档视为独立"专家",通过创新的检索感知对比解码规则同步各专家预测,该规则以模型先验为基准加权专家逻辑值。该方法无需构建跨文档共享注意力,即可恢复跨文档推理能力。
检索增强生成(RAG)管道需应对超越简单单文档检索的挑战,例如解析视觉元素(表格、图表、图像)、跨文档信息融合以及提供精准的溯源依据。现有基准测试未能涵盖这种复杂性,往往局限于文本数据、单文档理解或割裂评估检索与生成环节。我们推出第三代视觉文档检索增强基准ViDoRe v3,该基准具备对视觉丰富文档集的多类型查询功能,覆盖10个专业领域的数据集,包含约2.6万页文档与3,099条人工校验的查询项,支持6种语言。通过1.2万小时的人工标注工作,我们为检索相关性、边界框定位及验证参考答案提供了高质量标注。对前沿RAG管道的评估表明:视觉检索器优于文本检索器,延迟交互模型与文本重排能显著提升性能,混合或纯视觉上下文可改善答案生成质量。然而现有模型仍存在非文本元素处理、开放式查询和细粒度视觉定位的不足。为促进相关挑战的攻关,本基准已通过商业友好许可发布于https://hf.co/vidore。
扩散变换器(DiT)的最新进展虽为图像生成设立了新标准,但由于其高昂的计算与内存成本,仍难以在终端设备上实际部署。本研究提出一种面向移动及边缘设备的高效DiT框架,可在严格资源限制下实现变换器级别的生成质量。我们的设计融合三大核心要素:首先,提出具有自适应全局-局部稀疏注意力机制的紧凑型DiT架构,平衡全局上下文建模与局部细节保留;其次,构建弹性训练框架,在统一超网络内联合优化不同容量的子DiT模型,使单一模型能动态适配多样化硬件的高效推理需求;最后,开发知识引导分布匹配蒸馏技术,该分步蒸馏流程将DMD目标与少步数教师模型的知识迁移相结合,生成适用于实时终端应用的高保真低延迟结果(如4步生成)。这些创新共同构建了可扩展、高效率、高质量的扩散模型,为多样化硬件部署提供支持。
尽管视频生成模型发展迅速,但数据对运动特征的影响机制尚不明确。本文提出Motive(视频生成运动归因框架),这是一种基于梯度、以运动为核心的数据归因方法,可适配现代大规模高质量视频数据集与模型。通过该框架,我们能够精准识别微调数据集中改善或损害时序动态特性的视频片段。Motive通过运动加权损失掩码将时序动态与静态表观特征解耦,实现了高效可扩展的专项运动影响力计算。在文本到视频模型中,该框架能有效识别对运动特征具有显著影响的数据片段,并据此指导数据筛选,从而提升时序一致性与物理合理性。采用Motive筛选的高影响力数据后,我们的方法在VBench评测中同时提升了运动平滑度与动态幅度指标,相比预训练基础模型获得74.1%的人类偏好胜率。据我们所知,这是首个针对视频生成模型进行运动特征(而非视觉表观)归因的框架,并首次将其应用于微调数据筛选。
视觉语言行动模型通过统一感知与规划,并继承大型视觉语言模型的强大泛化能力,在具身导航领域展现出巨大潜力。然而现有模型大多依赖从观测到动作的被动映射,缺乏应对复杂长程导航任务所需的显式推理能力与持久记忆机制。为此,我们提出基于语言驱动认知的具身导航模型VLingNav。首先,受人类认知双加工理论启发,我们引入自适应思维链机制,通过动态触发显式推理实现智能体在快速直觉执行与慢速审慎规划间的流畅切换;其次,针对长程空间依赖问题,开发视觉辅助语言记忆模块,构建跨模态语义记忆网络,使智能体能回溯历史观测以避免重复探索,并推断动态环境中的运动趋势。训练方案方面,我们构建了迄今最大规模的具身导航推理数据集Nav-AdaCoT-2.9M,其包含的自适应思维链标注可诱导模型形成"何时思考"与"思考什么"的双重调节能力。此外,通过引入在线专家指导的强化学习阶段,使模型突破纯模仿学习局限,获得更具鲁棒性的自主探索导航行为。大量实验表明,VLingNav在多个具身导航基准测试中达到最先进性能。值得注意的是,该模型能以零样本方式迁移至真实机器人平台,在执行多样化导航任务时展现出强大的跨领域与跨任务泛化能力。
由于缺乏成对的视频数据,如何基于用户提供的身份信息实现可控的视频角色替换仍是一个具有挑战性的问题。现有研究主要依赖基于重建的范式,需要逐帧分割掩码和显式结构指导(如骨骼、深度信息)。然而,这种依赖性严重限制了方法在复杂场景中的泛化能力,例如存在遮挡、角色-物体交互、非常规姿态或复杂光照的情况,往往导致视觉伪影和时间不一致性。本文提出创新框架MoCha,通过仅需单帧任意掩码即可突破这些限制。为有效适配多模态输入条件并增强面部身份特征,我们引入了条件感知的RoPE机制,并采用基于强化学习的后训练阶段。此外,为解决合格配对训练数据稀缺的问题,我们设计了完整的数据构建流程,具体创建了三个专用数据集:基于虚幻引擎5(UE5)构建的高保真渲染数据集、通过当前人像动画技术合成的表情驱动数据集,以及从现有视频-掩码对衍生的增强数据集。大量实验表明,本方法显著优于现有最优方法。我们将公开代码以促进后续研究,更多细节请访问项目页面:orange-3dv-team.github.io/MoCha。
提升大型语言模型(LLM)的推理能力主要依赖于利用模型生成数据进行迭代式自训练。虽然现有方法能有效提升准确率,但其主要强化成功推理路径,导致显著的校准代价:模型变得过度自信并丧失表征不确定性的能力。这种失效被描述为对齐过程中的一种模型坍塌现象,即预测分布退化为低方差点估计。我们通过将推理训练重新定义为认知学习问题来解决此问题,在该框架下模型不仅需要学习如何推理,还需掌握何时应信任自身的推理结果。我们提出认知校准推理(EpiCaR)作为联合优化推理性能与校准度的训练目标,并利用显式自评估信号在迭代式监督微调框架中实现该目标。基于Llama-3和Qwen-3系列的实验表明,我们的方法在准确率与校准度上均对标准基线实现帕累托优势,尤其在具备足够推理能力的模型(如3B+参数规模)中表现突出。该框架可有效泛化至分布外数学推理(GSM8K)和代码生成(MBPP)任务。最终,我们的方法能使具备较强推理能力的模型在仅使用K=10个样本的情况下,达到STaR方法K=30样本的推理效果,实现推理计算量减少三倍。
可验证奖励强化学习(RLVR)已成为大语言模型推理的标准范式。然而,仅针对最终答案正确性进行优化常导致模型陷入盲目冗长的探索,使其依赖穷举试错策略而非结构化规划来求解。虽然长度惩罚等启发式约束可降低冗余度,但往往截断关键推理步骤,形成效率与可验证性之间的两难权衡。本文提出判别能力是高效生成的前提:通过学习区分有效解,模型可内化一种能剪枝搜索空间的引导信号。我们提出JudgeRLVR这一"先判别后生成"的双阶段范式:第一阶段训练模型对含可验证答案的解题响应进行判别;第二阶段基于判别器初始化模型,通过标准生成式RLVR进行微调。在相同数学领域训练数据下,相比原始RLVR,JudgeRLVR为Qwen3-30B-A3B模型实现了更优的质量-效率平衡:在领域内数学任务上平均准确率提升约3.7分的同时生成长度减少42%;在领域外基准测试中平均准确率提升约4.5分,展现出更强的泛化能力。
随着图像生成技术的快速发展,基于自然语言指令的视觉文本编辑日益受到关注。该任务的核心挑战在于充分理解指令与参考图像,从而生成与图像风格协调的视觉文本。现有方法通常需要繁琐地指定文本内容及字体大小、颜色、版式等属性,却忽略了与参考图像的整体风格一致性。为此,我们提出UM-Text——一个通过自然语言指令实现上下文理解与视觉文本编辑的统一多模态模型。具体而言,我们引入视觉语言模型(VLM)解析指令与参考图像,从而根据上下文信息精细设计文本内容与版式。为生成精准和谐的视觉文本图像,我们进一步提出UM-Encoder来融合多维度条件信息的嵌入表示,其融合方式由VLM根据输入指令自动配置。在训练阶段,我们提出区域一致性损失函数,在潜在空间和RGB空间为字形生成提供更有效的监督,并设计定制化的三阶段训练策略以提升模型性能。此外,我们构建了包含20万张多场景视觉文本图像的大规模数据集UM-DATA-200K用于模型训练。在多个公开基准测试上的定性与定量结果表明,本方法达到了当前最优性能。
本文提出VideoLoom——一种面向时空联合理解的统一视频大语言模型。为培养细粒度时空定位能力,我们构建了LoomData-8.7k数据集,该以人为中心的视频数据集包含时间锚定与空间定位的双重标注。基于此,VideoLoom在多项时空基准测试中达到领先或极具竞争力的性能(例如指代视频目标分割任务ReVOS上获得63.1 J&F值,时序定位任务Charades-STA上取得48.3 R1@0.7精度)。此外,我们推出LoomBench新型评估基准,包含时序、空间及组合型视频问答对,可从多维度全面评估视频大语言模型。这些成果共同构成了一套通用有效的时空联合视频理解方案,为多模态智能领域树立了新标杆。
文本到可视化(Text2Vis)系统能够将针对表格数据的自然语言查询转化为简洁答案及可执行的可视化图表。尽管闭源大语言模型能生成功能性代码,但其生成的图表常存在语义对齐不足和清晰度欠佳的问题,这些质量缺陷仅能在执行后评估。开源模型表现更为逊色,常产生无法执行或视觉效果低劣的输出。虽然监督微调可提升代码可执行性,但由于传统监督微调损失函数无法捕捉执行后反馈,该方法难以全面提升可视化质量。为弥补这一缺陷,我们提出RL-Text2Vis——首个基于强化学习的Text2Vis生成框架。该方法基于群组相对策略优化(GRPO)构建,通过新型多目标奖励机制,利用执行后反馈联合优化文本准确性、代码有效性和可视化质量。通过训练Qwen2.5模型(7B和14B参数版本),RL-Text2Vis在Text2Vis基准测试中较GPT-4o实现图表质量22%的相对提升,并将代码执行成功率从零样本基线的78%提升至97%。我们的模型显著超越强零样本和监督基线,并在VIS-Eval和NVBench等域外数据集上展现出强大泛化能力。这些成果证实GRPO是可视化生成中结构化多模态推理的有效策略。代码已发布于https://github.com/vis-nlp/RL-Text2Vis。
离散运动标记化技术近期使得大语言模型(LLM)能够作为运动理解与运动-语言推理的多功能基础架构。然而,现有方案通常将运动量化与语义嵌入学习解耦,仅通过标记ID建立关联。这种方法未能有效对齐运动空间与嵌入空间的内在几何结构,从而限制了LLM进行精细运动推理的能力。我们认为当两种模态共享统一几何基础时,对齐效果最为显著。为此,我们提出一种新颖框架,通过强制运动码本和LLM嵌入空间满足正交性约束,使其关系结构自然映射,而非强迫LLM从零开始重构运动标记间的复杂几何关系。具体而言,我们采用带Gumbel-Softmax的仅解码器量化器实现可微分训练与均衡的码本使用;通过稀疏投影在保持正交性的前提下将运动编码映射至LLM嵌入空间;最后设计两阶段正交正则化方案,在标记器训练与LLM微调过程中施加软约束,在维持几何对齐的同时不阻碍语义适配。在HumanML3D数据集上的大量实验表明,本框架相较现有最优方法性能提升20%,验证了统一几何基础能有效增强LLM的精细运动推理能力。
大型语言模型(LLMs)在现实世界事实核查系统中的部署日益增多,然而现有评估主要聚焦于声明验证环节,忽视了包括声明提取与证据检索在内的完整事实核查工作流。这种局限性使当前基准测试难以揭示现代LLMs存在的系统性推理缺陷、事实盲区及鲁棒性局限。为弥补这一空白,我们提出FactArena——一个全自动的竞技场式评估框架,通过分阶段基准测试对LLMs在完整事实核查流程中的表现进行综合评估。FactArena整合三大核心组件:(一)基于LLM驱动的事实核查流程,标准化声明解构、通过工具增强交互实现证据检索、以及基于论证的判定预测;(二)遵循统一参考准则的竞技场式评判机制,确保异构评判代理间进行无偏差且一致的成对比较;(三)竞技场驱动的声明演化模块,能自适应生成语义受控的高难度声明,突破固定种子数据的限制以探测LLMs的事实鲁棒性。在对七大模型家族的16个前沿LLMs进行测试时,FactArena产出稳定且可解释的排名结果。我们的分析进一步揭示了静态声明验证准确率与端到端事实核查能力之间的显著差异,凸显了整体评估的必要性。该框架为诊断LLMs的事实推理能力、指导未来模型开发、以及推动LLMs在安全关键型事实核查应用中的可靠部署,提供了可扩展且可信赖的范式。