每日精选AI研究论文及翻译
为了在复杂环境中生存并蓬勃发展,人类通过环境探索、将经验分层抽象为可重用技能,以及协作构建不断增长的技能库,进化出了精妙的自我提升机制。尽管近期取得了进展,自主网络代理仍缺乏关键的自我提升能力,在程序性知识抽象、技能精炼及技能组合方面面临挑战。本研究提出了SkillWeaver,一个以技能为核心的框架,使代理能够通过自主合成可重用的API技能实现自我提升。面对新网站,代理自主发现技能,执行以实践,并将实践经验提炼为稳健的API。通过迭代探索,持续扩展轻量级、即插即用的API库,显著增强代理的能力。在WebArena及真实网站上的实验验证了SkillWeaver的有效性,分别实现了31.8%和39.8%的相对成功率提升。此外,由强代理合成的API通过可转移技能显著增强了弱代理,在WebArena上带来了高达54.3%的改进。这些结果证明了将多样化的网站交互精炼为API的有效性,这些API能够在不同网络代理间无缝共享。
扩散变换器在生成质量上展现了卓越性能,尽管需要更长的训练迭代次数和多次推理步骤。在每一步去噪过程中,扩散变换器通过编码噪声输入来提取低频语义成分,随后使用相同模块解码高频信息。这一机制引发了一个内在的优化难题:编码低频语义需削弱高频成分,从而在语义编码与高频解码之间形成张力。为应对这一挑战,我们提出了一种新型的\color{ddtD}解耦\color{ddtD}扩散\color{ddtT}变换器(\color{ddtDDT}),其设计特点在于分离了专门用于语义提取的条件编码器与特定速度解码器。实验表明,随着模型规模增大,更强大的编码器能带来性能提升。在ImageNet 256×256数据集上,我们的DDT-XL/2实现了1.31的FID新纪录(相比之前的扩散变换器,训练收敛速度提升了近4倍)。在ImageNet 512×512数据集上,DDT-XL/2同样创下了1.28的FID新纪录。此外,作为有益的副产品,我们的解耦架构通过允许相邻去噪步骤间共享自条件,提升了推理速度。为了最小化性能损失,我们提出了一种新颖的统计动态规划方法,以识别最优共享策略。
我们推出OLMoTrace,这是首个能够实时追踪语言模型输出至其完整、数万亿token训练数据的系统。OLMoTrace能够发现并展示语言模型输出片段与训练文本语料库中文献之间的逐字匹配。依托于infini-gram(Liu等人,2024)的扩展版本,我们的系统能在数秒内返回追踪结果。OLMoTrace有助于用户通过训练数据的视角理解语言模型的行为。我们展示了如何利用它来探索事实核查、幻觉现象以及语言模型的创造力。OLMoTrace现已公开,且完全开源。
我们发现,无论是通过强化学习还是监督学习训练的推理型大语言模型(LLMs),在面对前提缺失(MiP)的不适定问题时,其响应长度会显著增加,最终导致冗余且无效的思考。这一新引入的场景在很大程度上加剧了普遍存在的过度思考问题,我们将其命名为“MiP-过度思考”。此类失败现象违背了“测试时扩展定律”,但在我们构建的多个包含MiP的数据集上广泛存在,揭示了廉价过度思考的危害及批判性思维的缺失。令人惊讶的是,未专门针对推理进行训练的LLMs在MiP场景下表现更佳,生成的响应更短,能迅速识别不适定查询。这表明当前推理型LLMs的训练方案存在关键缺陷,未能充分鼓励高效思考,导致思维模式的滥用。为了深入探究这些失败背后的原因,我们对不同类型LLMs的推理长度、过度思考模式及关键思维位置进行了细致分析。此外,我们的扩展消融研究表明,过度思考通过推理模型响应的蒸馏过程具有传染性。这些结果深化了我们对过度思考的理解,并为缓解该问题提供了新的见解。
从单一静态肖像创建逼真且可动画化的虚拟形象仍具挑战性。现有方法往往难以捕捉微妙的面部表情、相应的全身动作以及动态背景。为克服这些局限,我们提出了一种新颖框架,该框架利用预训练的视频扩散变换器模型,生成高保真、连贯且运动动态可控的说话肖像。我们工作的核心在于双阶段视听对齐策略。第一阶段,采用片段级训练方案,通过在整个场景(包括参考肖像、上下文对象及背景)中同步音频驱动的动态,建立连贯的全局运动。第二阶段,借助唇部追踪掩码在帧级别精修唇部动作,确保与音频信号的精确同步。为在不牺牲运动灵活性的前提下保持身份一致性,我们以面部聚焦的交叉注意力模块替代了常用的参考网络,有效维持视频中面部的一致性。此外,我们集成了运动强度调节模块,明确控制表情和身体动作的强度,使得肖像动作的操控不仅限于唇部运动。大量实验结果表明,我们提出的方法在质量、真实感、连贯性、运动强度及身份保持方面均表现出色。项目页面:https://fantasy-amap.github.io/fantasy-talking/。
条件图像生成因其个性化内容的能力而备受关注。然而,该领域在开发任务无关、可靠且可解释的评估指标方面面临挑战。本文提出了CIGEval,一个用于全面评估条件图像生成任务的统一代理框架。CIGEval以大型多模态模型(LMMs)为核心,集成了多功能工具箱,并建立了细粒度的评估框架。此外,我们合成了用于微调的评估轨迹,使较小的LMMs能够自主选择适当的工具,并根据工具输出进行细致分析。在七项主要条件图像生成任务上的实验表明,CIGEval(GPT-4o版本)与人类评估的相关系数高达0.4625,与标注者间相关系数0.47非常接近。此外,当使用仅2.3K训练轨迹的7B开源LMMs实现时,CIGEval超越了之前基于GPT-4o的最先进方法。针对GPT-4o图像生成的案例研究突出了CIGEval在识别主体一致性和控制指导遵循性等细微问题方面的能力,表明其在自动化评估图像生成任务方面具有人类级可靠性的巨大潜力。
摄像机轨迹设计在视频制作中扮演着至关重要的角色,它是传达导演意图和增强视觉叙事的基本工具。在电影摄影中,摄影师们精心设计摄像机运动,以实现富有表现力和意图的构图。然而,现有的摄像机轨迹生成方法仍存在局限:传统方法依赖于几何优化或手工制作的程序化系统,而最近基于学习的方法往往继承了结构性偏差或缺乏文本对齐,限制了创意合成。在本研究中,我们引入了一种受摄影师专业知识启发的自回归模型,用于生成艺术性和表现力丰富的摄像机轨迹。我们首先介绍了DataDoP,这是一个大规模多模态数据集,包含29,000个真实世界的镜头,涵盖自由移动的摄像机轨迹、深度图以及关于特定运动、场景互动和导演意图的详细描述。得益于这一全面且多样化的数据库,我们进一步训练了一个仅解码器的自回归Transformer,名为GenDoP,用于基于文本引导和RGBD输入的高质量、上下文感知的摄像机运动生成。大量实验表明,与现有方法相比,GenDoP提供了更好的可控性、更细粒度的轨迹调整以及更高的运动稳定性。我们相信,我们的方法为基于学习的电影摄影设立了新标准,为未来摄像机控制和电影制作的进步铺平了道路。我们的项目网站:https://kszpxxzmc.github.io/GenDoP/。
推理已成为语言模型(LMs)的下一个重要前沿领域,学术界与工业界实验室均取得了快速进展。然而,这一进步往往超越了方法论的严谨性,许多评估依赖于缺乏透明度、鲁棒性或统计基础的基准测试实践。在本研究中,我们进行了全面的实证分析,发现当前的数学推理基准对细微的实现选择高度敏感——包括解码参数、随机种子、提示格式,甚至硬件和软件框架配置。近期研究中报告的性能提升常常依赖于不明确的比较或未公开的变异来源。为解决这些问题,我们提出了一个标准化的评估框架,明确了最佳实践和报告标准。运用此框架,我们重新评估了近期方法,发现强化学习(RL)方法仅带来有限的改进——远低于先前的声明——并且容易过拟合,特别是在小规模基准如AIME24上。相比之下,监督微调(SFT)方法展现出更一致的泛化能力。为促进可复现性,我们公开了所有代码、提示及模型输出,为推理基准建立了更为严格的基础,为未来工作铺平道路。
我们提出了OmniCaptioner,一个多功能的视觉描述生成框架,旨在为广泛的视觉领域生成细粒度的文本描述。与以往局限于特定图像类型(如自然图像或几何视觉)的方法不同,我们的框架为自然图像、视觉文本(如海报、用户界面、教科书)以及结构化视觉内容(如文档、表格、图表)提供了一体化的解决方案。通过将低层次的像素信息转化为语义丰富的文本表示,我们的框架弥合了视觉与文本模态之间的鸿沟。研究结果凸显了三大优势:(i) 增强的视觉推理能力,借助长上下文视觉描述,特别是DeepSeek-R1系列大语言模型在多模态场景中有效推理;(ii) 提升的图像生成质量,详细描述促进了文本到图像生成及图像转换等任务的改进;(iii) 高效的监督微调(SFT),实现了更少数据下的快速收敛。我们相信,OmniCaptioner的多样性与适应性将为弥合语言与视觉模态之间的差距提供新的视角。
尽管测试时推理使语言模型能够应对复杂任务,但在自然语言中进行搜索或规划往往缓慢、成本高昂且容易出错。然而,即便语言模型难以精确模拟解决问题所需的推理步骤,它们通常擅长描述问题的抽象结构——包括如何验证解决方案以及如何搜索这些方案。本文介绍了一种名为DisCIPL的方法,用于实现语言模型的“自我引导”,其中规划模型生成特定任务的推理程序,由一组跟随模型执行。我们的方法赋予语言模型编写递归搜索程序的能力,这些程序指导语言模型的推理,从而实现了可验证且高效的新型推理形式。当采用小型跟随模型(如Llama-3.2-1B)实例化时,DisCIPL在具有挑战性的约束生成任务上,与包括GPT-4o和o1在内的更大模型表现相当,有时甚至更优。通过将规划与执行分离,我们的工作开辟了一个高度并行的蒙特卡洛推理策略设计空间,这些策略超越了标准的N选一采样,无需微调,且可由现有语言模型自动实现。
我们推出CAT-V(视频中任意对象描述),这是一个无需训练的框架,专为细粒度对象中心视频描述而设计,能够对用户选择的对象进行跨时间的详细描述。CAT-V集成了三大核心组件:基于SAMURAI的分割器,用于跨帧精确对象分割;由TRACE-Uni驱动的时间分析器,实现准确的事件边界检测与时间分析;以及采用InternVL-2.5的描述生成器,用于生成详细的对象中心描述。通过时空视觉提示和思维链推理,我们的框架无需额外训练数据,即可生成关于对象属性、动作、状态、交互及环境背景的详细、时间感知的描述。CAT-V支持通过多种视觉提示(点、边界框、不规则区域)进行灵活的用户交互,并通过追踪不同时间段内对象状态与交互,保持时间敏感性。我们的方法解决了现有视频描述技术存在的局限性,这些技术要么生成过于抽象的描述,要么缺乏对象级别的精确性,从而实现了在保持时间连贯性和空间准确性的同时,提供细粒度、对象特定的描述。本项目GitHub仓库地址为:https://github.com/yunlong10/CAT-V。
近期强化学习领域的进展显著提升了多模态大语言模型(MLLMs)的推理能力。尽管诸如群体相对策略优化(GRPO)和基于规则的奖励机制等方法在文本和图像领域展现出潜力,但它们在视频理解中的应用仍较为有限。本文系统性地探索了将GRPO应用于视频MLLMs的强化微调(RFT),旨在增强时空感知能力的同时保持模型的通用性能。实验表明,RFT在任务特定改进方面具有极高的数据效率。通过在有限样本上对时空感知目标进行多任务RFT,我们开发了VideoChat-R1,这是一个强大的视频MLLM,在时空感知任务上实现了最先进的性能,且未牺牲聊天能力,同时展现出新兴的时空推理能力。与Qwen2.5-VL-7B相比,VideoChat-R1在时间定位(+31.8)和对象跟踪(+31.2)等任务中性能提升数倍。此外,它在通用问答基准测试如VideoMME(+0.9)、MVBench(+1.0)和Perception Test(+0.9)上也有显著提升。我们的研究结果强调了RFT在视频MLLMs特定任务增强中的潜力。希望我们的工作能为未来视频MLLMs的强化学习研究提供有价值的见解。
在长时间互动中生成自然且细腻的倾听者动作仍是一个未解难题。现有方法多依赖于低维动作编码来生成面部行为,随后进行逼真渲染,这既限制了视觉保真度,也制约了表达的丰富性。为应对这些挑战,我们推出了DiTaiListener,它由具备多模态条件的视频扩散模型驱动。我们的方法首先利用DiTaiListener-Gen,基于说话者的语音和面部动作生成倾听者反应的短片段,随后通过DiTaiListener-Edit精修过渡帧,实现无缝衔接。具体而言,DiTaiListener-Gen通过引入因果时序多模态适配器(CTM-Adapter)来处理说话者的听觉与视觉线索,从而将扩散变换器(DiT)应用于倾听者头像生成任务。CTM-Adapter以因果方式将说话者输入整合到视频生成过程中,确保倾听者反应在时间上连贯。针对长视频生成,我们提出了DiTaiListener-Edit,这是一种过渡优化的视频到视频扩散模型。该模型将视频片段融合为流畅连续的影片,在合并由DiTaiListener-Gen生成的短视频片段时,确保面部表情和图像质量的时间一致性。定量分析显示,DiTaiListener在基准数据集上于逼真度(RealTalk上FID提升73.8%)和动作表现(VICO上FD指标提升6.1%)两方面均达到了业界领先水平。用户研究进一步证实了DiTaiListener的卓越性能,在反馈、多样性和流畅性方面,该模型明显优于竞争对手,成为用户的首选。
我们提出了WildGS-SLAM,一种稳健且高效的单目RGB SLAM系统,旨在通过利用不确定性感知的几何映射来处理动态环境。与假设场景静态的传统SLAM系统不同,我们的方法整合了深度和不确定性信息,以在存在移动物体的情况下增强跟踪、建图和渲染性能。我们引入了一种由浅层多层感知器和DINOv2特征预测的不确定性地图,用于在跟踪和建图过程中指导动态物体的移除。这种不确定性地图增强了密集束调整和高斯地图优化,提高了重建精度。我们的系统在多个数据集上进行了评估,并展示了无伪影的视图合成效果。结果表明,与最先进的方法相比,WildGS-SLAM在动态环境中表现出卓越的性能。
自监督学习通过使模型能够在大量未标注数据集上进行训练,从而提供与有标签训练模型性能相当的通用现成特征,彻底改变了二维计算机视觉领域。然而,在三维场景理解中,自监督方法通常仅作为任务特定微调的权重初始化步骤,限制了其在通用特征提取方面的应用。本文针对这一不足,提出了一种专门设计的鲁棒评估协议,旨在评估自监督特征在三维场景理解中的质量。我们的协议采用分层模型的多分辨率特征采样,创建丰富的点级表示,这些表示能够捕捉模型的语义能力,因此适用于线性探测和最近邻方法的评估。此外,我们首次引入了一种自监督模型,在仅使用现成特征的线性探测设置下,其表现与监督模型相当。特别地,我们的模型在三维空间中以原生方式训练,采用了一种基于掩码场景建模目标的新型自监督方法,该方法自下而上地重建掩码补丁的深层特征,并专门针对分层三维模型进行了定制。我们的实验不仅证明了该方法在性能上与监督模型相当,而且大幅超越了现有的自监督方法。模型及训练代码可在我们的Github仓库中找到(https://github.com/phermosilla/msm)。
对象中心学习(OCL)旨在学习仅编码单个对象的表示,将其从场景中的其他对象或背景线索中分离出来。这一方法支撑了多种目标,包括分布外(OOD)泛化、样本高效组合以及结构化环境建模。大多数研究集中于开发无监督机制,将对象分离至表示空间中的离散槽位,并通过无监督对象发现进行评估。然而,随着近期样本高效分割模型的出现,我们能够在像素空间中分离对象并独立编码它们。这在OOD对象发现基准测试中实现了显著的零样本性能,可扩展至基础模型,并能开箱即用地处理可变数量的槽位。因此,OCL方法获取对象中心表示的目标已基本达成。尽管取得这些进展,一个关键问题依然存在:在场景中分离对象的能力如何促进更广泛的OCL目标,如OOD泛化?我们通过OCL视角探讨由虚假背景线索引发的OOD泛化挑战,提出了一种无需训练的新型探针——应用掩码的对象中心分类(OCCAM),证明基于分割的单个对象编码显著优于基于槽位的OCL方法。然而,实际应用中的挑战依然存在。我们为OCL社区提供了使用可扩展对象中心表示的工具箱,并聚焦于实际应用与基础问题,如理解人类认知中的对象感知。我们的代码可在https://github.com/AlexanderRubinstein/OCCAM获取。
大型语言模型(LLMs)已展现出作为科学发现工具的潜力,这激发了人们对其在人文学科中应用的日益关注,如历史语言学和文学研究。这些领域常基于体裁或更为严格的时间段划分来构建论点。尽管已有尝试通过微调或模型编辑将推理限制在特定领域,但我们认为,唯一真正的保证是领域受限的预训练——这通常是一项数据密集且计算成本高昂的提议。 我们展示了高效的预训练技术能够在对于手动检查而言过大、但对于“典型”LLM方法又过小的语料库上生成有用的模型。我们采用了一种新颖的日期归属流程,以获得一个时间分段的五部分、每部分一千万词的语料库。我们分别在这些语料库片段上训练了两组对应的五模型集合,一组采用高效预训练,另一组则基于Llama3-8B参数进行高效微调。 研究发现,预训练模型比微调基线训练速度更快,且更能尊重我们语料库的历史划分。强调速度与精确性而非跨历史的全面性,使得在我们目标领域中,假设发现与测试得以采用多种新颖方法。以历时语言学为测试平台,我们展示了该方法能够检测到一系列多样现象,包括大规模词汇变迁、非词汇(语法和形态)变化以及词义引入/废弃。我们提供了一套即用型流程,仅需最小调整即可将我们的方法扩展至其他目标领域。
从单视角感知中稳健抓取各类物体是灵巧机器人的基础能力。以往研究多依赖于完全可观测的物体、专家示范或静态抓取姿态,这限制了其泛化能力和对外界干扰的适应性。本文提出了一种基于强化学习的框架,实现了从单视角感知对多种未见物体的零样本动态灵巧抓取,同时能对外界干扰做出自适应动作。我们采用以手为中心的物体表征方法进行形状特征提取,着重关注与交互相关的局部形状,从而增强对形状变化和不确定性的鲁棒性。为使手部在有限观测条件下有效适应干扰,我们提出了一种混合课程学习策略:首先利用模仿学习提炼出基于特权实时视觉-触觉反馈训练的策略,然后逐步过渡到强化学习,在观测噪声和动态随机化引起的干扰下学习自适应动作。实验结果表明,该方法在随机姿态下抓取未见物体时展现出强大的泛化能力,在247,786个模拟物体上取得了97.0%的成功率,在512个真实物体上达到了94.6%的成功率。通过定量和定性评估,我们还验证了该方法对各类干扰(包括未观测到的物体移动和外部力)的鲁棒性。项目页面:https://zdchan.github.io/Robust_DexGrasp/
本文介绍了从俄罗斯新闻文本中提取结构化观点的对话评估共享任务。该竞赛的任务是从给定句子中提取观点元组,这些元组由情感持有者、其目标、表达方式以及持有者对目标的情感组成。该任务共收到超过100份提交作品。参赛者主要尝试了在零样本、少样本和微调模式下使用大型语言模型。测试集上的最佳结果是通过对大型语言模型进行微调获得的。我们还比较了30种提示和11个拥有3至320亿参数的开源语言模型在1样本和10样本设置下的表现,并找出了最佳模型和提示。
在语言模型生成过程中,受限于某些约束条件时,主流方法是局部约束解码(LCD),即在每个时间步逐步采样令牌,确保约束始终不被违反。通常,这是通过令牌掩码实现的:遍历词汇表并排除不符合条件的令牌。然而,这种方法存在两个重要问题:(i) 对每个令牌评估约束条件可能极其耗时——语言模型的词汇量常超过10万;(ii) LCD可能扭曲字符串的全局分布,仅基于局部信息采样令牌,即便这些令牌可能导致死胡同。本研究引入了一种新算法,旨在同时解决这两个问题。首先,为避免在生成过程中每一步都对完整词汇表进行约束评估,我们提出了一种自适应拒绝采样算法,该算法通常能大幅减少约束评估次数。其次,我们展示了如何以极小的额外成本扩展此算法,以生成低方差、无偏的重要性权重估计——这些估计可稳妥地用于先前提出的序列蒙特卡洛算法中,以纠正局部约束执行的短视行为。通过在文本到SQL、分子合成、目标推理、模式匹配及JSON领域的大量实证评估,我们证明了该方法优于现有最先进的基线,支持更广泛的约束类别,并在运行时间和性能上均有提升。进一步的理论与实证分析表明,我们方法的运行效率得益于其动态计算利用,其计算量随无约束与约束语言模型间的差异而调整,因此,对于更优的模型,运行时间的改善更为显著。