每日精选AI研究论文及翻译
可验证奖励的强化学习(RLVR)近来已成为大型语言模型(LLMs)后训练阶段的关键范式,尤其在处理复杂推理任务时。然而,基础RLVR训练虽能提升Pass@1表现,却以策略熵的降低为代价,导致生成多样性减少,从而限制了代表LLM推理能力上限的Pass@k性能。本文从训练问题的角度系统分析了策略的生成多样性,发现增强并更新训练问题有助于缓解训练过程中的熵塌缩。基于这些观察,我们提出了一种在线自博弈与变分问题合成(SvS)策略用于RLVR训练,该策略利用策略的正确解答合成变分问题,同时确保其参考答案与原问题保持一致。这一自我提升策略有效维持了训练期间的策略熵,相比标准RLVR显著提升了Pass@k表现,实现了持续改进,并在竞赛级别的AIME24和AIME25基准测试中,Pass@32性能分别取得了18.3%和22.8%的绝对提升。在3B至32B不同模型规模下的12个推理基准测试中,实验一致证明了SvS的普适性与鲁棒性。
本文提出了一种新颖的学习范式,用于自适应大型语言模型(LLM)智能体,无需对底层LLM进行微调。现有方法往往要么僵化,依赖于静态、手工设计的反思流程,要么计算密集,需要更新LLM模型参数的梯度。相比之下,我们的方法通过基于记忆的在线强化学习实现了低成本的持续适应。我们将此形式化为记忆增强的马尔可夫决策过程(M-MDP),配备了一个神经案例选择策略来指导行动决策。过去的经验存储在情景记忆中,记忆可以是可微分的或非参数的。策略通过记忆重写机制根据环境反馈持续更新,而策略改进则通过高效的记忆读取(检索)实现。我们在深度研究场景中实例化了我们的智能体模型,即AgentFly,它在GAIA验证集上取得了87.88%的Pass@3成绩,在测试集上达到了79.40%。在DeepResearcher数据集上,它获得了66.6%的F1分数和80.4%的PM分数,超越了基于训练的最先进方法,而基于案例的记忆在分布外任务上增加了4.7%到9.6%的绝对分数。我们的方法为开发能够持续、实时学习且无需梯度更新的通用LLM智能体提供了一条可扩展且高效的路径,推动了机器学习向开放式技能获取和深度研究场景的发展。代码可在https://github.com/Agent-on-the-Fly/AgentFly获取。
语言引导的长时程移动操作一直是具身语义推理、通用化操作和自适应运动中的重大挑战。三大根本性限制阻碍了进展:首先,尽管大型语言模型通过语义先验提升了空间推理和任务规划能力,现有实现仍局限于桌面场景,未能解决移动平台受限的感知能力和有限的操作范围问题。其次,当前的操作策略在面对开放世界环境中多样化的物体配置时,表现出不足的泛化能力。第三,尽管对于实际部署至关重要,在非结构化环境中同时保持高平台机动性和精确末端执行器控制的双重要求仍未被充分研究。 在本研究中,我们提出了ODYSSEY,一个为配备机械臂的敏捷四足机器人设计的统一移动操作框架,它无缝集成了高层任务规划与低层全身控制。针对语言条件任务中的自我中心感知挑战,我们引入了一个由视觉-语言模型驱动的分层规划器,实现了长时程指令分解和精确动作执行。在控制层面,我们新颖的全身策略实现了在复杂地形上的稳健协调。我们进一步提出了首个长时程移动操作基准,评估了多样化的室内外场景。通过成功的仿真到现实迁移,我们展示了系统在现实世界部署中的泛化能力和鲁棒性,凸显了腿式操作器在非结构化环境中的实用性。我们的工作推进了能够执行复杂动态任务的通用机器人助手的可行性。项目页面:https://kaijwang.github.io/odyssey.github.io/
尽管外中心视频合成已取得显著进展,但第一人称视角视频生成领域仍鲜有探索,这要求对第一人称视角内容及穿戴者身体运动引发的相机运动模式进行建模。为填补这一空白,我们提出了一项新颖的任务——联合第一人称视频与人体运动生成,其面临两大关键挑战:1)视角对齐:生成视频中的相机轨迹必须精确匹配由人体运动推导出的头部轨迹;2)因果互动:合成的人体运动需与相邻视频帧间观察到的视觉动态保持因果一致性。针对这些挑战,我们提出了EgoTwin,一个基于扩散变换器架构的联合视频-运动生成框架。具体而言,EgoTwin引入了一种以头部为中心的运动表示法,将人体运动锚定于头部关节,并融入了一种受控制论启发的交互机制,该机制在注意力操作中显式捕捉视频与运动间的因果互动。为进行全面评估,我们构建了一个大规模的真实世界文本-视频-运动三元组数据集,并设计了新颖的指标来评估视频与运动的一致性。大量实验验证了EgoTwin框架的有效性。
随着大语言模型(LLMs)在现实应用中的部署日益增多,如何在保持模型实用性的同时选择性移除不需要的知识变得至关重要。近期研究探索了使用稀疏自编码器(SAEs)对单义特征进行精确干预。然而,大多数基于SAE的方法在推理阶段操作,这并未在模型参数中产生持久性改变。此类干预可能被拥有参数访问权限的恶意行为者绕过或逆转。我们提出了CRISP,一种利用SAEs实现持久概念遗忘的参数高效方法。CRISP自动识别跨多个层的显著SAE特征并抑制其激活。我们在两个LLMs上进行了实验,结果表明,在WMDP基准测试的安全关键遗忘任务中,我们的方法优于先前的方法,成功移除了有害知识,同时保留了一般性和领域内能力。特征级分析显示,CRISP实现了目标概念与良性概念在语义上的清晰分离,从而能够精确抑制目标特征。
促进实体与物体的交互,需要准确识别出支持特定动作的功能部件。弱监督功能定位(WSAG)旨在模仿人类从第三人称演示中学习的方式,即人类无需像素级标注便能直观理解功能部件。为此,通常通过跨不同视角图像共享分类器,并结合部件发现过程的蒸馏策略来实现定位。然而,由于功能相关部件并非总是易于区分,模型主要依赖分类,往往关注与功能无关的类别特定模式。为克服这一局限,我们超越了孤立的部件级学习,引入了选择性原型和像素对比目标,根据可用信息的粒度,自适应地在部件和物体两个层面学习功能相关线索。首先,我们利用CLIP在自我中心(聚焦物体)和他人中心(第三人称示例)图像中找出与动作关联的物体。接着,通过交叉参考互补视角下发现的物体,我们在每个视角中挖掘出精确的部件级功能线索。通过持续学习区分功能相关区域与无关背景,我们的方法有效将激活从无关区域转向有意义的功能线索。实验结果验证了该方法的有效性。代码可在github.com/hynnsk/SelectiveCL获取。
竞技编程已成为评估大型语言模型(LLMs)推理与编码能力的关键基准。尽管现有基准测试取得了显著进展,但我们认为当前评估高估了模型的实际水平,掩盖了LLMs与顶尖人类程序员之间的显著差距。这一差距源于两大关键局限:基准测试问题难度与广度不足,以及低质量测试用例导致的评估偏差。为弥补这些不足,我们推出了AetherCode,这一新基准从IOI、ICPC等顶级编程竞赛中选取题目,提供了更广泛的覆盖范围与更高的难度。AetherCode进一步整合了通过自动化生成与人工审核相结合构建的全面、专家验证的测试套件,确保了评估的严谨性与可靠性。通过将挑战性的问题设计与稳健的评估相结合,AetherCode为LLM能力提供了更为真实的衡量标准,并为未来代码推理研究树立了新标杆。
随着大型语言模型(LLMs)的快速发展,智能体得以将内在知识与动态工具使用相结合,极大地提升了其应对现实世界任务的能力。顺应这一趋势,AgentScope在新版本(1.0)中引入了重大改进,旨在全面支持灵活高效的工具驱动型智能体-环境交互,以构建智能体应用。具体而言,我们抽象出了智能体应用所需的基础组件,并提供了统一的接口和可扩展模块,使开发者能够轻松利用最新进展,如新模型和MCPs。此外,我们将智能体行为建立在ReAct范式之上,并基于系统化的异步设计提供了先进的智能体级基础设施,这不仅丰富了人机交互与智能体间交互模式,还提升了执行效率。在此基础上,我们整合了多个针对特定实际场景的内置智能体。AgentScope还包含强大的工程支持,为开发者提供友好体验。我们提供了一个带有可视化工作室界面的可扩展评估模块,使得长轨迹智能体应用的开发更易于管理和追踪。此外,AgentScope提供了一个运行时沙盒,确保智能体执行的安全性,并促进在生产环境中的快速部署。凭借这些增强功能,AgentScope为构建可扩展、自适应且高效的智能体应用奠定了实用基础。
医疗大语言模型在精准诊断上面临知识鸿沟与幻觉问题的阻碍。检索与工具增强方法虽有所助益,但其效果受限于对外部知识的利用不足及反馈推理链的追踪性差。为应对这些挑战,我们推出了Deep-DxSearch,一个通过强化学习(RL)端到端训练的代理式RAG系统,旨在实现可引导的检索增强推理,助力医疗诊断。在Deep-DxSearch中,我们首先构建了一个大规模医疗检索语料库,包含患者记录及可靠的医学知识源,以支持跨诊断场景的检索感知推理。更为关键的是,我们将大语言模型定位为核心代理,检索语料库作为其环境,通过定制化奖励机制——涵盖格式、检索、推理结构及诊断准确性——利用大规模数据通过RL进化代理式RAG策略。 实验表明,我们的端到端代理式RL训练框架在多个数据中心均稳定优于提示工程及免训练RAG方法。训练后,Deep-DxSearch在诊断准确率上取得显著提升,无论是在分布内还是分布外设置下,均超越了如GPT-4o、DeepSeek-R1等强诊断基线及其他医疗专用框架,适用于常见与罕见疾病的诊断。此外,奖励设计与检索语料库组件的消融研究证实了它们的关键作用,凸显了相较于传统实现方式,我们方法的独特性和有效性。最后,案例研究与可解释性分析揭示了Deep-DxSearch诊断策略的改进,为其性能提升提供了深入见解,并支持临床医生提供更可靠、精确的初步诊断。详情请访问https://github.com/MAGIC-AI4Med/Deep-DxSearch。
近期视频编辑技术在风格迁移或外观修改方面取得了引人注目的成果。然而,在视频中编辑三维场景的结构内容仍面临挑战,尤其是在处理显著视角变化时,如大幅度的相机旋转或缩放。主要挑战包括生成与原始视频保持一致的新视角内容、保留未编辑区域,以及将稀疏的二维输入转化为逼真的三维视频输出。为解决这些问题,我们提出了Sketch3DVE,一种基于草图的、具备三维感知的视频编辑方法,旨在实现对具有显著视角变化的视频进行精细局部操控。针对稀疏输入带来的挑战,我们采用图像编辑方法生成首帧的编辑结果,并将其传播至视频的其余帧。我们利用草图作为精确几何控制的交互工具,同时也支持其他基于掩码的图像编辑方法。为应对视角变化,我们对视频中的三维信息进行了详尽分析与操作。具体而言,我们运用密集立体视觉方法估计输入视频的点云及相机参数。随后,我们提出了一种点云编辑方法,利用深度图表示新编辑组件的三维几何结构,使其与原始三维场景有效对齐。为了无缝融合新编辑内容与原始视频,同时保留未编辑区域的特征,我们引入了一种三维感知的掩码传播策略,并采用视频扩散模型生成逼真的编辑视频。大量实验验证了Sketch3DVE在视频编辑中的优越性。项目主页与代码详见:http://geometrylearning.com/Sketch3DVE/
近期,视觉-语言-动作(VLA)模型在一系列机器人任务中展现了卓越的性能。这些模型依赖于多模态输入,其中语言指令扮演着关键角色——不仅在于预测动作,更在于即便在请求无法实现时,也能稳健地解读用户意图。本研究中,我们探讨了VLA模型如何识别、理解并响应基于错误前提的指令:即那些引用环境中不存在对象或条件的自然语言命令。我们提出了“指令-验证-执行”(IVA)这一统一框架,该框架能够:(i) 检测因错误前提导致指令无法执行的情况,(ii) 通过语言进行澄清或纠正,(iii) 将可行的替代方案与感知和行动相结合。为此,我们构建了一个大规模指令调优环境,包含结构化语言提示,并训练了一个能够同时处理准确与错误请求的VLA模型。我们的方法利用了一个上下文增强的半合成数据集,其中包含成对的正例与错误前提指令,从而实现了稳健的错误检测与自然语言纠正。实验结果表明,IVA在错误前提检测准确率上较基线提升了97.56%,同时在错误前提场景下的成功响应率提高了50.78%。
多头部潜在注意力机制(Multi-Head Latent Attention, MLA)在DeepSeek-V2中引入,通过将键值状态压缩为低秩潜在向量,仅缓存该向量以减少内存占用。然而,在张量并行(Tensor Parallelism, TP)环境下,注意力头需跨多个设备计算,每台设备必须加载完整的缓存,这削弱了MLA相较于分组查询注意力(Grouped Query Attention, GQA)的优势。为此,我们提出了张量并行潜在注意力机制(Tensor-Parallel Latent Attention, TPLA):一种将潜在表示及每个注意力头的输入维度跨设备分片、独立执行分片内注意力计算,并通过全归约(all-reduce)合并结果的方案。TPLA在保留压缩键值缓存优势的同时,解锁了TP的效率。与分组潜在注意力(Grouped Latent Attention, GLA)不同,TPLA中的每个头仍能利用完整的潜在表示,保持了更强的表征能力。TPLA与使用MLA预训练的模型无缝兼容:支持MLA风格的预填充,并能在无需重新训练的情况下实现高效的张量并行解码。在TP分片前应用简单的正交变换——如哈达玛变换或主成分分析(PCA)——进一步减轻了跨分片干扰,使得精度下降最小化。通过为DeepSeek-V3和Kimi-K2减少每台设备的键值缓存,在32K令牌上下文长度下,我们分别实现了1.79倍和1.93倍的加速,同时在常识推理和LongBench基准测试上保持了性能。TPLA可与FlashAttention-3结合实现,为端到端加速提供了实用方案。
3D高斯泼溅(3DGS)在新视角合成(NVS)中展现了卓越的效果。然而,它存在一个显著缺陷:实现高保真渲染通常需要大量3D高斯分布,导致内存消耗和存储需求巨大。为应对这一挑战,我们提出了首个针对3DGS的知识蒸馏框架,该框架包含多种教师模型,如基础3DGS、噪声增强变体及dropout正则化版本。这些教师模型的输出被整合以指导轻量级学生模型的优化。为提炼隐含的几何结构,我们提出了一种结构相似性损失,以增强学生模型与教师模型之间空间几何分布的一致性。通过跨多个数据集的全面定量与定性评估,所提出的Distilled-3DGS框架,虽简洁却高效,在渲染质量与存储效率方面相比现有最先进方法均取得了令人瞩目的成果。项目页面:https://distilled3dgs.github.io。代码:https://github.com/lt-xiang/Distilled-3DGS。
轮廓或闭合平面曲线在众多领域中普遍存在。例如,在计算机视觉中它们表现为物体边界,在气象学中作为等值线出现,在旋转机械中则代表运行轨迹。在处理轮廓数据进行学习时,平面旋转的输入往往会导致输出相应地旋转。因此,深度学习模型具备旋转等变性显得尤为重要。此外,轮廓通常被表示为一系列有序的边缘点,而起始点的选择是任意的。因此,深度学习方法还需对循环位移保持等变性。我们提出了RotaTouille,一个专为轮廓数据学习设计的深度学习框架,它通过复数值的循环卷积实现了旋转与循环位移的等变性。进一步地,我们引入并描述了等变非线性层、粗化层以及全局池化层,以获取适用于下游任务的不变表示。最后,我们通过形状分类、重建及轮廓回归实验,验证了RotaTouille的有效性。
大型语言模型(LLMs)在人类中心推理任务中展现了强劲性能。尽管先前的评估已探讨了LLMs能否推断意图或识别欺骗,但它们往往忽视了影响人们在社交情境中解读与行动的个体化推理风格。社交推理游戏(SDGs)为评估个体化推理风格提供了一个天然的测试平台,其中不同玩家在相同条件下可能采用多样但情境有效的推理策略。为此,我们引入了InMind,一个基于认知科学的评估框架,旨在评估LLMs能否在SDGs中捕捉并应用个性化推理风格。InMind通过增强结构化游戏数据,包括回合级策略轨迹和赛后反思,这些数据在观察者与参与者模式下收集,支持四项认知驱动的任务,共同评估静态对齐与动态适应能力。作为案例研究,我们将InMind应用于《阿瓦隆》游戏,评估了11个顶尖LLMs。通用型LLMs,即便是GPT-4o,也常依赖词汇线索,难以将反思锚定于时间序列的游戏进程或适应策略的演变。相比之下,如DeepSeek-R1等推理增强型LLMs则展现出初步的风格敏感推理迹象。这些发现揭示了当前LLMs在个体化、适应性推理能力上的关键局限,并定位InMind为迈向认知对齐的人机交互的一步。
在三维人体姿态与形状估计领域,SMPLify 仍是一个通过迭代优化解决逆向运动学(IK)问题的坚实基准。然而,其高昂的计算成本限制了实际应用。近期跨领域的研究表明,用数据驱动的神经网络替代迭代优化,能在不牺牲精度的前提下显著提升运行效率。受此趋势启发,我们提出了可学习的 SMPLify,这是一个将 SMPLify 中的迭代拟合过程替换为单次回归模型的神经框架。我们的框架设计针对神经 IK 中的两大核心挑战:数据构建与泛化能力。为实现有效训练,我们提出了一种时间采样策略,从连续帧中构建初始化-目标对。为提升对多样化动作及未见姿态的泛化能力,我们采用了以人为中心的归一化方案及残差学习,以缩小解空间。可学习的 SMPLify 既支持序列推理,也可作为插件后处理工具,用于精炼现有的基于图像的估计器。大量实验证明,我们的方法确立了一个实用且简洁的基准:相比 SMPLify,其运行速度提升了近 200 倍,在 3DPW 和 RICH 数据集上展现出良好的泛化性能,且作为插件工具应用于 LucidAction 时,保持了模型无关性。代码已发布于 https://github.com/Charrrrrlie/Learnable-SMPLify。
推理能力在大规模语言模型(LLMs)的广泛应用中扮演着至关重要的角色。为了提升LLMs的推理性能,多种基于强化学习(RL)的微调方法被提出,以解决仅通过监督微调(SFT)训练的LLMs泛化能力有限的问题。尽管这些方法有效,但两大局限阻碍了LLMs的进一步发展。首先,传统的RL方法忽视了标注的思维链(CoT),并引入了不稳定的推理路径采样,这通常导致模型崩溃、训练过程不稳定以及性能欠佳。其次,现有的SFT方法普遍过度强调标注的CoT,可能因未能充分利用潜在CoT而导致性能下降。本文提出了一种基于标注CoT的对比学习强化微调方法,即CARFT,旨在提升LLMs的推理性能,同时解决上述局限。具体而言,我们提出为每个CoT学习一个表示,并基于此表示设计新颖的对比信号来指导微调过程。我们的方法不仅充分利用了可用的标注CoT,还通过引入额外的无监督学习信号稳定了微调过程。我们通过三种基线方法、两个基础模型和两个数据集进行了全面的实验和深入分析,证明了CARFT在鲁棒性、性能(提升高达10.15%)和效率(提升高达30.62%)方面的显著优势。代码已发布于https://github.com/WNQzhu/CARFT。
评估越狱攻击的挑战在于,当提示语并未明显表现出危害性或未能引发有害输出时。遗憾的是,许多现有的红队数据集包含了此类不适宜的提示语。为了准确评估攻击,这些数据集需经过恶意性评估与清理。然而,现有的恶意内容检测方法要么依赖人工标注,耗时耗力;要么依赖大型语言模型(LLMs),在识别有害类型时准确性不一。为了在准确性与效率之间取得平衡,我们提出了一种名为MDH(基于LLM并辅以人工协助的恶意内容检测)的混合评估框架,该框架结合了基于LLM的标注与最小化的人工监督,并将其应用于数据集清理及越狱响应的检测中。此外,我们发现精心设计的开发者信息能显著提升越狱成功率,这促使我们提出了两种新策略:D-Attack,利用上下文模拟;以及DH-CoT,融合了被劫持的思维链。相关代码、数据集、判断结果及检测成果将发布于GitHub仓库:https://github.com/AlienZhang1996/DH-CoT。