每日精选AI研究论文及翻译
大型语言模型(LLMs)的性能从根本上取决于推理过程中提供的上下文信息。本综述引入了“上下文工程”这一正式学科,它超越了简单的提示设计,涵盖了为LLMs系统优化信息负载的全面方法。我们提出了一个详尽的分类体系,将上下文工程分解为其基础组件以及将这些组件整合到智能系统中的复杂实现。我们首先审视了基础组件:上下文检索与生成、上下文处理以及上下文管理。随后,我们探讨了这些组件如何通过架构整合,创造出复杂的系统实现:检索增强生成(RAG)、记忆系统与工具集成推理,以及多智能体系统。通过对1300多篇研究论文的系统分析,本综述不仅为该领域绘制了技术路线图,还揭示了一个关键的研究空白:模型能力之间存在根本性的不对称性。尽管当前模型在高级上下文工程的加持下,在理解复杂上下文方面展现出卓越能力,但在生成同等复杂的长篇输出时却表现出明显的局限性。填补这一空白是未来研究的首要任务。最终,本综述为推进上下文感知AI的研究人员和工程师提供了一个统一的框架。
近期,视觉-语言模型(VLMs)通过增加视觉标记的数量提升了性能,这些视觉标记通常远长于文本标记。然而,我们观察到,在大多数现实场景中,并不需要如此大量的视觉标记。尽管在少数OCR相关任务中性能显著下降,但在仅使用1/4分辨率的情况下,模型在大多数其他通用视觉问答(VQA)任务中仍能准确执行。因此,我们提出了一种动态处理不同样本分辨率的新方法,并引入了一种新的视觉标记压缩范式——VisionThink。该范式从下采样图像开始,智能判断其是否足以解决问题。若不足,模型可输出特殊标记以请求更高分辨率图像。与现有采用固定剪枝比例或阈值压缩标记的高效VLM方法相比,VisionThink能够根据具体情况自主决定是否压缩标记。结果显示,它在OCR相关任务上展现了强大的细粒度视觉理解能力,同时在更简单任务上节省了大量视觉标记。我们采用强化学习,并提出了LLM-as-Judge策略,成功将强化学习应用于通用VQA任务。此外,我们精心设计了奖励函数和惩罚机制,以实现稳定且合理的图像缩放调用比例。大量实验验证了我们方法的优越性、效率及有效性。代码已发布于https://github.com/dvlab-research/VisionThink。
我们提出了pi^3,一种前馈神经网络,它为视觉几何重建提供了一种新颖的方法,打破了传统固定参考视角的依赖。以往的方法通常将重建过程锚定在指定的视点上,这种归纳偏差可能导致在参考视角不理想时出现不稳定和失败。相比之下,pi^3采用了一种完全置换等变的架构,无需任何参考框架即可预测仿射不变的相机姿态和尺度不变的局部点云图。这一设计使得我们的模型对输入顺序具有内在的鲁棒性,并具备高度的可扩展性。这些优势使得我们这种简单且无偏差的方法在相机姿态估计、单目/视频深度估计以及密集点云图重建等一系列任务中实现了最先进的性能。代码和模型均已公开提供。
长度泛化能力,即解决训练过程中未见过的更长序列问题的能力,是Transformer架构下大型语言模型(LLM)面临的核心挑战。尽管现有研究主要集中于算术运算和符号操作任务的数据驱动方法,但这些方法往往局限于特定任务,整体性能有限。为寻求更通用的解决方案,本文聚焦于一类更广泛的、可计算推理问题,即那些算法能够解决、进而图灵机也能解决的问题。基于此视角,本文提出了图灵机模仿学习(TAIL),旨在提升LLM的长度泛化能力。TAIL通过计算机程序合成模仿图灵机执行过程的思维链(CoT)数据,将推理步骤线性扩展为原子状态,以缓解捷径学习现象,并引入显式内存获取机制,降低基础操作中动态及长距离数据访问的难度。为验证TAIL的可靠性与普适性,我们构建了一个涵盖8类算法、18项任务的挑战性合成数据集。无需额外修饰,TAIL仅凭合成数据便显著提升了Qwen2.5-7B在多项任务上的长度泛化能力及性能表现,超越了以往方法及DeepSeek-R1。实验结果表明,图灵机中的关键概念,而非其思维模式,对TAIL实现长度泛化不可或缺,模型在注意力层中展现出与图灵机特性相符的读写行为。本工作为未来从合成数据中学习LLM推理能力的研究指明了一个有前景的方向。
可控描述生成对于实现精准的多模态对齐和指令跟随至关重要,然而现有模型往往缺乏细粒度控制及可靠的评估协议。为填补这一空白,我们推出了AnyCap项目,这是一个涵盖模型、数据集和评估的一体化解决方案。我们引入了AnyCapModel(ACM),一个轻量级即插即用框架,它增强了现有基础模型在全模态描述生成中的可控性,而无需重新训练基础模型。ACM在重用基础模型原有描述的同时,融入用户指令和模态特征,以生成更优的描述。针对可控多模态描述生成中数据稀缺的问题,我们构建了AnyCapDataset(ACD),涵盖三种模态、28种用户指令类型及30万条高质量数据条目。我们进一步提出了AnyCapEval,这一新基准通过解耦内容准确性与风格忠实度,为可控描述生成提供了更为可靠的评估指标。在AnyCapEval上,ACM显著提升了多种基础模型的描述质量。值得注意的是,ACM-8B使GPT-4o的内容得分提升了45%,风格得分提升了12%,同时在MIA-Bench和VidCapBench等广泛使用的基准测试中也取得了显著进步。
本文针对以稀疏视角视频为输入的高保真人体视图合成这一挑战展开研究。现有方法通过利用4D扩散模型生成新视角视频来解决观测不足的问题,然而这些模型生成的视频往往缺乏时空一致性,从而降低了视图合成的质量。为此,我们提出了一种新颖的滑动迭代去噪过程,以增强4D扩散模型的时空一致性。具体而言,我们定义了一个潜在网格,其中每个潜在编码对应特定视角和时间点的图像、相机姿态及人体姿态,随后采用滑动窗口在空间和时间维度上交替对潜在网格进行去噪,最终从相应的去噪潜在中解码出目标视角的视频。通过迭代滑动,信息在潜在网格中充分流动,使得扩散模型能够获得较大的感受野,从而提升输出的4D一致性,同时将GPU内存消耗控制在可接受范围内。在DNA-Rendering和ActorsHQ数据集上的实验表明,我们的方法能够合成高质量且一致的新视角视频,显著优于现有方法。更多交互式演示及视频结果请访问我们的项目页面:https://diffuman4d.github.io/。
从静态图像生成富有表现力的面部动画是一项具有挑战性的任务。以往依赖显式几何先验(如面部关键点或3DMM)的方法,在跨角色重现时常常出现伪影,且难以捕捉细微的情感变化。此外,现有方法缺乏对多角色动画的支持,因为来自不同个体的驱动特征经常相互干扰,增加了任务难度。为解决这些挑战,我们提出了FantasyPortrait,一个基于扩散变换器的框架,能够为单角色和多角色场景生成高保真且情感丰富的动画。我们的方法引入了一种表情增强学习策略,利用隐式表示来捕捉与身份无关的面部动态,从而提升模型渲染细腻情感的能力。针对多角色控制,我们设计了一种掩码交叉注意力机制,确保独立而协调的表情生成,有效防止特征干扰。为推进该领域的研究,我们提出了Multi-Expr数据集和ExprBench,这是专门为训练和评估多角色肖像动画而设计的数据集和基准。大量实验表明,FantasyPortrait在定量指标和定性评估上均显著优于现有最先进方法,尤其在具有挑战性的跨角色重现和多角色情境中表现尤为突出。我们的项目页面为https://fantasy-amap.github.io/fantasy-portrait/。
三维空间中的空间推理是人类认知的核心,对于导航和操作等具身任务不可或缺。然而,当前最先进的视觉-语言模型(VLMs)在处理诸如预测自我中心运动后场景变化这样简单的任务时常常力不从心:它们能感知二维图像,却缺乏对三维动态的内部建模。为此,我们提出了MindJourney,一个测试时扩展框架,通过将VLM与基于视频扩散的可控世界模型相结合,赋予其这一缺失的能力。VLM迭代地勾勒出简洁的相机轨迹,而世界模型则在每一步合成对应的视图。随后,VLM基于交互探索过程中收集的多视角证据进行推理。无需任何微调,我们的MindJourney在代表性空间推理基准SAT上平均提升了超过8%的性能,表明将VLM与世界模型配对用于测试时扩展,为稳健的三维推理提供了一条简单即插即用的途径。同时,我们的方法也优于通过强化学习训练的测试时推理VLM,这展示了利用世界模型进行测试时扩展的潜力。
我们推出了AbGen,这是首个旨在评估大语言模型(LLMs)在科学研究中设计消融实验能力的基准。AbGen包含1,500个由专家标注的示例,这些示例源自807篇自然语言处理(NLP)论文。在该基准中,LLMs的任务是根据给定的研究背景,为指定模块或流程生成详细的消融实验设计方案。我们对DeepSeek-R1-0528和o4-mini等领先LLMs的评估显示,这些模型在消融实验设计的重要性、忠实性和合理性方面与人类专家存在显著差距。此外,我们证明当前的自动化评估方法在我们的任务中并不可靠,因为它们与人类评估相比存在显著差异。为了更好地探究这一点,我们开发了AbGen-Eval,这是一个元评估基准,旨在评估常用自动化评估系统在衡量LLMs执行我们任务时的可靠性。我们在AbGen-Eval上研究了多种LLM-as-Judge系统,为未来开发更有效、更可靠的基于LLM的复杂科学任务评估系统提供了洞见。
稀疏自编码器(Sparse Autoencoders, SAEs)已成为解析大型语言模型内部表征的有力工具,然而它们往往难以捕捉训练语料库中不常见的领域特定特征。本文提出了一种残差学习方法,旨在无需完全重新训练的情况下解决这一特征盲区问题。我们建议训练一个辅助SAE,专门用于建模预训练SAE在领域特定文本上的重构误差,从而有效捕获主模型遗漏的特征。通过在推理阶段将两个模型的输出相加,我们在多个专业领域中显著提升了大型语言模型的交叉熵和解释方差指标。实验表明,该方法能够高效地将新领域知识融入现有SAE,同时保持其在通用任务上的性能。这一方法使研究人员能够针对特定兴趣领域有选择性地增强SAE的可解释性,为大型语言模型的定向机制解释开辟了新的可能性。
语言模型(LMs)通过简单的微调来适应新数据分布具有挑战性,这主要归因于其子词分词器的固定性,这些分词器在适应过程中通常保持不变。这种不灵活性常导致分词效率低下,使得分布外领域、未见过的语言或文字被过度分割。在本研究中,我们开发了具备可学习分词器的字节级语言模型,以实现自适应的分词。我们的模型包含一个子模块,该模块学习预测输入字节序列之间的边界,并将其编码为可变长度的片段。现有的无分词器方法通过辅助损失训练这个边界预测器,该损失强制训练语料库中固定的压缩率,从而引入了新的刚性。我们提出了FLEXITOKENS,一种简化的训练目标,能够在适应过程中提供显著更大的灵活性。通过在多个多语言基准测试、形态多样的任务和领域中的评估,我们证明FLEXITOKENS持续减少了令牌的过度分割,并在下游任务性能上相比子词和其他基于梯度的分词器实现了高达10%的提升。我们的实验代码和数据将在https://github.com/owos/flexitokens 发布。
视频帧插值(Video Frame Interpolation, VFI)旨在基于两个连续相邻帧I_0和I_1预测中间帧I_n(此处用n表示视频中的时间,以避免与扩散模型中的时间步t混淆)。近期研究将扩散模型(包括基于图像和基于视频的)应用于此任务,并取得了显著成效。然而,基于图像的扩散模型无法提取时间信息,且相较于非扩散方法效率较低。基于视频的扩散模型虽能提取时间信息,但其在训练规模、模型大小及推理时间上过于庞大。为解决上述问题,我们提出了时间感知潜在布朗桥扩散视频帧插值(Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation, TLB-VFI),一种高效的基于视频的扩散模型。通过我们提出的3D小波门控和时间感知自编码器从视频输入中提取丰富的时间信息,我们的方法在最具挑战性的数据集上,相较于最新的基于图像的扩散模型,FID指标提升了20%。同时,得益于丰富的时间信息,我们的方法在参数数量减少3倍的情况下仍保持强劲性能,这一参数缩减带来了2.3倍的加速。通过引入光流指导,我们的方法所需训练数据减少了9000倍,且参数数量比基于视频的扩散模型少20倍以上。代码与结果详见项目页面:https://zonglinl.github.io/tlbvfi_page。
近期,多模态大语言模型(MLLMs)的进展不仅解锁了强大的跨模态推理能力,也引发了新的安全隐患,尤其是在面对对抗性多模态输入时。为提升MLLMs在推理阶段的安全性,我们引入了一种模块化且自适应的推理时干预技术——AutoSteer,无需对基础模型进行任何微调。AutoSteer包含三大核心组件:(1) 一种新颖的安全意识评分(SAS),能自动识别模型内部各层中最具安全相关性的差异;(2) 一个自适应安全探测器,训练用于从中间表示中估计有害输出的可能性;(3) 一个轻量级的拒绝头(Refusal Head),在检测到安全风险时选择性介入,调节生成过程。在LLaVA-OV和Chameleon模型上,针对多种安全关键基准的实验表明,AutoSteer显著降低了文本、视觉及跨模态威胁的攻击成功率(ASR),同时保持了模型的通用能力。这些发现确立了AutoSteer作为一个实用、可解释且有效的框架,为多模态AI系统的安全部署提供了有力保障。
我们推出Voxtral Mini和Voxtral Small两款多模态音频对话模型。Voxtral经过训练,能够理解语音音频与文本文件,在多种音频基准测试中达到顶尖性能,同时保持强大的文本处理能力。Voxtral Small在性能上超越多款闭源模型,且体积小巧,足以在本地运行。其32K上下文窗口使模型能够处理长达40分钟的音频文件及进行多轮长对话。此外,我们还贡献了三个基准测试,用于评估语音理解模型在知识与常识问答上的表现。两款Voxtral模型均以Apache 2.0许可证发布。
我们提出了爱因斯坦场(Einstein Fields),这是一种旨在将计算密集型的四维数值相对论模拟压缩为紧凑的隐式神经网络权重的神经表示方法。通过建模广义相对论的核心张量场——度规,爱因斯坦场能够借助自动微分推导出物理量。然而,与传统神经场(如符号距离场、占据场或辐射场)不同,爱因斯坦场属于神经张量场,其关键区别在于,当将广义相对论的时空几何编码为神经场表示时,动力学特性会自然作为副产品涌现。爱因斯坦场展现出显著潜力,包括对四维时空的连续建模、网格无关性、存储效率、导数精度以及易用性。我们在多个广义相对论的经典测试平台上应对这些挑战,并发布了一个基于JAX的开源库,为数值相对论迈向更具可扩展性和表现力的方法铺平道路。代码已公开于https://github.com/AndreiB137/EinFields。