每日精选AI研究论文及翻译
我们引入“Drivelology”这一独特的语言现象,其特征被描述为“蕴含深意的无稽之谈”——这些话语在句法上连贯,却在语用上自相矛盾、情感丰富或修辞颠覆。尽管此类表达可能看似肤浅的无意义,它们却编码了需要上下文推理、道德判断或情感解读的隐含意义。我们发现,当前的大型语言模型(LLMs)虽然在众多自然语言处理(NLP)任务中表现出色,却始终难以把握Drivelology文本的多层语义。为探究此问题,我们构建了一个小而多样的基准数据集,包含1200多个精心挑选的示例,涵盖英语、汉语、西班牙语、法语、日语和韩语。标注过程尤为复杂:每个示例均需经过专家细致审查,以确保其真实反映Drivelology特征。这一过程涉及多轮讨论与裁决,以解决分歧,凸显了Drivelology微妙且主观的本质。我们评估了一系列LLMs在分类、生成和推理任务上的表现。结果显示,LLMs存在明显局限:模型常将Drivelology与浅层无意义混淆,产生不连贯的辩解,或完全忽略隐含的修辞功能。这些发现揭示了LLMs在语用理解上的深层表征缺陷,并挑战了统计流畅性即意味着认知理解的假设。我们公开数据集与代码,以促进在超越表面连贯性的语言深度建模方面的进一步研究。
利用预训练的文本到图像(T2I)生成模型中的视觉先验知识,在密集预测任务中已展现出显著成效。然而,密集预测本质上属于图像到图像的任务,这表明图像编辑模型,而非T2I生成模型,可能更适合作为微调的基础。基于此,我们系统分析了编辑器和生成器在密集几何估计任务中的微调行为。研究发现,编辑模型具备固有的结构先验,使其能够通过“精炼”内在特征更稳定地收敛,并最终超越生成模型的表现。 基于这些发现,我们提出了FE2E框架,首次将基于扩散变换器(DiT)架构的高级编辑模型应用于密集几何预测。具体而言,为使编辑模型适应这一确定性任务,我们将其原有的流匹配损失重新表述为“一致速度”训练目标,并采用对数量化解决编辑模型原生BFloat16格式与任务高精度需求之间的冲突。此外,我们利用DiT的全局注意力机制,在单次前向传播中无额外成本地联合估计深度和法线,使它们的监督信号相互增强。 在不扩大训练数据规模的情况下,FE2E在多个数据集的零样本单目深度和法线估计任务中实现了显著的性能提升。特别是在ETH3D数据集上,性能提升超过35%,并超越了基于100倍数据训练的DepthAnything系列。项目页面可通过https://amap-ml.github.io/FE2E/访问。
现代语言模型的后训练主要依赖于两类训练数据来源:在线数据(模型生成的推演数据)和离线数据(人类或其他模型的示范数据)。这两类数据通常分别被强化学习(RL)和监督微调(SFT)等方法所采用。本文中,我们揭示这两种方法并非对立,而是同一优化过程的不同实例。我们推导出一个统一策略梯度估计器,并将多种后训练方法的计算展示为在不同数据分布假设及各类偏差-方差权衡下,对同一目标函数的梯度求解。该梯度估计器由四个可互换组件构成:稳定化掩码、参考策略分母、优势估计以及似然梯度。基于理论发现,我们提出了混合后训练(HPT)算法,该算法能动态选择不同的训练信号。HPT旨在实现示范数据的有效利用与稳定探索的平衡,同时不牺牲已习得的推理模式。我们通过大量实验与消融研究,验证了统一理论框架及HPT的有效性。在六个数学推理基准测试和两个分布外测试集上,HPT在不同规模和系列的模型中均显著超越了强基线表现。
深度研究智能体因其在协调多阶段研究流程中的潜力而日益受到关注,这些流程涵盖文献综述、方法设计及实证验证。尽管取得了这些进展,由于难以收集真正能捕捉研究者关注与智力好奇的前沿研究问题,忠实评估其研究能力仍颇具挑战。为填补这一空白,我们引入了基于学术研讨会的DeepResearch Arena基准,该基准捕捉了丰富的专家讨论与互动,更好地反映了现实世界的研究环境,并降低了数据泄露的风险。为自动构建DeepResearch Arena,我们提出了一种多智能体分层任务生成(MAHTG)系统,该系统从研讨会记录中提取具有研究价值的灵感。MAHTG系统进一步将这些灵感转化为高质量的研究任务,确保研究任务制定的可追溯性,同时过滤噪声。借助MAHTG系统,我们从超过200场学术研讨会中精选了涵盖文学、历史、科学等12个学科的10,000多项高质量研究任务,构建了DeepResearch Arena。我们的广泛评估显示,DeepResearch Arena对当前最先进的智能体构成了重大挑战,不同模型间存在明显的性能差距。
大型语言模型(LLMs)在多样化任务上展现出强劲性能,但常表现出认知惯性,难以遵循与监督微调(SFT)期间学到的标准化模式相冲突的指令。为评估这一局限,我们提出逆向IFEval基准,旨在衡量模型的反直觉能力——即其克服训练诱导的偏见并遵从对抗性指令的能力。逆向IFEval引入了八类此类挑战,包括问题修正、故意文本缺陷、无注释代码及反事实回答等。通过人机协作流程,我们构建了一个包含1012道高质量中英文问题的数据集,涵盖23个领域,并在优化的LLM-as-a-Judge框架下进行评估。对现有领先LLMs的实验验证了逆向IFEval基准的必要性。我们的研究强调,未来的对齐工作不仅应追求流畅性与事实准确性,还需考虑在非传统情境下的适应能力。我们期望逆向IFEval既作为诊断工具,又为开发方法奠定基础,以缓解认知惯性,减少对狭窄模式的过拟合,最终提升LLMs在多样且不可预测的现实场景中遵循指令的可靠性。
生成模型领域存在一个根本性难题:迭代扩散模型虽能实现卓越的保真度,却需付出巨大的计算代价;而高效的少步生成方案则受限于难以突破的质量天花板。这一生成步数与输出质量之间的矛盾,源于训练目标过于局限,要么专注于无限小动态(PF-ODEs),要么仅着眼于直接预测终点。针对这一挑战,我们提出了一种精确的连续时间动态方程,它能解析地定义任意有限时间间隔内的状态转移。由此,我们开创了一种新的生成范式——过渡模型(Transition Models, TiM),它能够适应任意步数的转移,在生成轨迹上自如穿梭,从单步跨越到多步精细优化。尽管仅拥有8.65亿参数,TiM在所有评估步数下均实现了业界领先的性能,超越了如SD3.5(80亿参数)和FLUX.1(120亿参数)等顶尖模型。尤为重要的是,与以往的少步生成器不同,TiM在采样预算增加时展现出单调的质量提升。此外,采用我们的原生分辨率策略时,TiM在高达4096x4096的分辨率下仍能提供卓越的保真度。
长视频理解,以其长程时间依赖性和多事件特性为特征,仍然是一个挑战。现有方法通常依赖于静态推理或外部视觉-语言模型(VLMs),这些方法因缺乏端到端训练而面临复杂性和性能欠佳的问题。本文提出Video-MTR,一种强化多轮推理框架,旨在实现迭代式关键视频片段选择与问题理解。不同于传统视频推理管道一次性生成预测,Video-MTR通过多轮推理,基于对已处理片段和当前问题的逐步深入理解,渐进式地选择视频片段。这一迭代过程使得视频分析更为精细且上下文感知。为确保中间推理过程的有效性,我们引入了一种新颖的门控双层奖励系统,结合基于答案正确性的轨迹级奖励和强调帧-查询相关性的轮次级奖励。该系统优化了视频片段选择与问题理解,无需依赖外部VLMs,实现了端到端训练。在VideoMME、MLVU和EgoSchema等基准上的大量实验表明,Video-MTR在准确性和效率上均优于现有方法,推动了长视频理解领域的前沿发展。
我们提出了NER检索器,一种用于即席命名实体检索的零样本检索框架,这是命名实体识别(NER)的一种变体,其中感兴趣的类型并未预先提供,而是通过用户定义的类型描述来检索提及该类型实体的文档。我们的方法不依赖于固定模式或微调模型,而是基于大型语言模型(LLMs)的内部表示,将实体提及和用户提供的开放式类型描述嵌入到一个共享的语义空间中。我们发现,内部表示,特别是来自中间层Transformer块的值向量,比常用的顶层嵌入更有效地编码细粒度类型信息。为了优化这些表示,我们训练了一个轻量级的对比投影网络,该网络对齐类型兼容的实体,同时分离不相关的类型。生成的实体嵌入紧凑、类型感知,非常适合最近邻搜索。在三个基准测试中,NER检索器显著优于词汇和密集句子级检索基线。我们的研究结果为LLMs中的表示选择提供了实证支持,并展示了一种可扩展、无模式实体检索的实用解决方案。NER检索器代码库已在https://github.com/ShacharOr100/ner_retriever 公开。
基于流的3D生成模型在推理过程中通常需要数十次采样步骤。尽管少步蒸馏方法,特别是一致性模型(CMs),在加速2D扩散模型方面取得了显著进展,但在更复杂的3D生成任务中仍未被充分探索。在本研究中,我们提出了一种新颖的框架——MDT-dist,用于少步3D流蒸馏。我们的方法基于一个主要目标:蒸馏预训练模型以学习边缘数据运输。直接学习这一目标需要整合速度场,而这一积分难以实现。因此,我们提出了两个可优化的目标——速度匹配(VM)和速度蒸馏(VD),分别将优化目标从运输层面等价转换为速度和分布层面。速度匹配(VM)旨在稳定地匹配学生模型与教师模型之间的速度场,但不可避免地提供了有偏的梯度估计。速度蒸馏(VD)则通过利用已学习的速度场进行概率密度蒸馏,进一步优化了过程。在评估先驱3D生成框架TRELLIS时,我们的方法将每个流变压器的采样步骤从25步减少到1或2步,在A800上实现了0.68秒(1步×2)和0.94秒(2步×2)的延迟,分别带来了9.0倍和6.5倍的加速,同时保持了高视觉和几何保真度。大量实验表明,我们的方法显著优于现有的CM蒸馏方法,并使TRELLIS在少步3D生成中实现了卓越性能。
我们提出了Durian,这是首个能够以零样本方式从给定参考图像向目标肖像进行面部属性迁移并生成动画视频的方法。为了实现跨帧的高保真度和空间一致性属性迁移,我们引入了双参考网络,将来自肖像和属性图像的空间特征注入扩散模型的去噪过程中。我们采用自重建公式训练模型,即从同一肖像视频中采样两帧:一帧作为属性参考,另一帧作为目标肖像,其余帧则基于这些输入及其对应的掩码进行重建。为了支持不同空间范围的属性迁移,我们提出了一种基于关键点条件图像生成的掩码扩展策略用于训练。此外,我们进一步通过空间和外观级别的变换增强属性和肖像图像,以提高它们之间位置错位的鲁棒性。这些策略使得模型能够在多样属性和真实世界参考组合上有效泛化,尽管训练过程中没有显式的三元组监督。Durian在带有属性迁移的肖像动画任务上达到了最先进的性能,特别是其双参考设计使得在单次生成过程中无需额外训练即可实现多属性组合。
计算机辅助设计(CAD)生成建模正在推动工业应用领域的重大创新。近期研究在从点云、网格和文本描述等多种输入创建实体模型方面取得了显著进展。然而,这些方法与传统工业流程存在根本性差异,后者通常始于二维工程图纸。从这些二维矢量图纸自动生成参数化CAD模型的研究仍显不足,尽管这是工程设计中的关键步骤。为填补这一空白,我们的核心见解是将CAD生成重新定义为序列到序列学习问题,其中矢量绘图基元直接指导参数化CAD操作的生成,在整个转换过程中保持几何精度和设计意图。我们提出了Drawing2CAD框架,包含三个关键技术组件:一种保留精确几何信息的网络友好型矢量基元表示方法,一种解耦命令类型和参数生成同时保持精确对应关系的双解码器Transformer架构,以及一种适应CAD参数固有灵活性的软目标分布损失函数。为训练和评估Drawing2CAD,我们创建了CAD-VGDrawing数据集,包含成对的工程图纸和参数化CAD模型,并通过全面实验验证了方法的有效性。代码和数据集可在https://github.com/lllssc/Drawing2CAD获取。
开源大型语言模型(LLMs)的成功,使得社区能够创建大量针对特定任务和领域进行后训练的模型。然而,由于元数据的不一致和存储库的非结构化,浏览和理解这些模型仍然具有挑战性。我们提出了Delta Activations方法,通过测量微调模型相对于基础模型内部激活的变化,将其表示为向量嵌入。这种表示方法能够有效地按领域和任务进行聚类,揭示模型生态中的结构。Delta Activations还展现出一些理想特性:它在不同的微调设置下表现出鲁棒性,并在微调数据集混合时展现出可加性。此外,我们展示了Delta Activations能够通过少样本微调嵌入任务,并进一步探索了其在模型选择和合并中的应用。我们希望Delta Activations能够促进公开可用模型的复用实践。代码可在https://github.com/OscarXZQ/delta_activations获取。
大型语言模型(LLMs)能够遵循有害指令,尽管其能力令人瞩目,却引发了严重的安全隐患。近期研究采用探测式方法,探究了LLMs内部表征中恶意与良性输入的可分离性,并提议利用此类探测手段进行安全检测。我们系统性地重新审视了这一范式。鉴于其在分布外数据上的表现欠佳,我们推测探测方法仅习得了表面模式而非语义上的危害性。通过控制实验,我们验证了这一假设,并识别出所学习的特定模式:指令模式与触发词。我们的研究遵循系统化路径,从展示简单n-gram方法的可比性能,到使用语义净化数据集的控制实验,再到模式依赖性的细致分析。这些结果揭示了当前探测式方法带来的虚假安全感,并强调了重新设计模型与评估协议的必要性。为此,我们提供了进一步的讨论,旨在引导该方向上的负责任研究。项目已开源,地址为https://github.com/WangCheng0116/Why-Probe-Fails。