每日精选AI研究论文及翻译
大型语言模型(LLMs)已展现出作为通用模型的卓越多功能性。然而,其广泛适用性伴随着高昂的计算开销,特别是在自回归解码过程中,每一步都需要进行一次前向传播。在特定领域场景下,通用能力并非必需,可以换取效率的提升。本研究中,我们采用了一种新颖的领域适应视角,通过调整词汇表以适应聚焦的领域,从而降低延迟和计算成本。我们提出了AdaptiVocab,一种端到端的词汇适应方法,旨在提升LLMs在低资源领域中的效率。AdaptiVocab可应用于任何分词器和架构,通过用基于领域特定n-gram的词汇替换原有词汇,减少输入处理和输出生成所需的词汇数量。AdaptiVocab采用现有嵌入的指数加权组合来初始化新的n-词汇嵌入,并实施轻量级的微调阶段,该阶段可在单GPU上高效完成。我们评估了两个7B规模的LLMs在三个细分领域中的效率、生成质量及最终任务表现。结果表明,AdaptiVocab在不影响性能的前提下,减少了超过25%的词汇使用量。
基于人类反馈的强化学习(RLHF)对于使大型语言模型与人类偏好保持一致至关重要。尽管近期研究主要聚焦于算法改进,但提示数据构建的重要性却被忽视了。本文通过探索RLHF性能扩展中的数据驱动瓶颈,特别是奖励破解和响应多样性下降问题,填补了这一空白。我们引入了一种混合奖励系统,结合了推理任务验证器(RTV)和生成式奖励模型(GenRM),以缓解奖励破解现象。同时,我们提出了一种新颖的提示选择方法——Pre-PPO,以保持响应多样性并提升学习效率。此外,我们发现,在RLHF训练的早期阶段优先处理数学和编程任务能显著提升性能。通过两种模型规模的实验验证了所提方法的有效性和可扩展性。结果表明,RTV对奖励破解的抵抗力最强,其次是基于真实数据的GenRM,再次是基于SFT Best-of-N响应的GenRM。我们的策略能够快速捕捉任务特定的细微差别,从而大幅提升RLHF的整体性能。本研究强调了精细数据构建的重要性,并提供了克服RLHF性能瓶颈的实用方法。
近期的大型推理模型(LRMs),如DeepSeek-R1和OpenAI o1,通过扩展推理过程中的思维链(CoT)长度,展现了显著的性能提升。然而,一个日益凸显的问题是这些模型倾向于生成过长的推理轨迹,其中常充斥着冗余内容(例如重复的定义)、对简单问题的过度分析,以及对复杂任务多推理路径的浅层探索。这种低效性在训练、推理及实际部署(如基于代理的系统中)带来了重大挑战,尤其是在令牌经济性至关重要的场景下。本综述全面回顾了近期旨在提升LRMs推理效率的研究进展,特别聚焦于这一新范式中出现的独特挑战。我们识别了低效性的常见模式,考察了从预训练到推理整个LRM生命周期中提出的改进方法,并探讨了未来研究的潜在方向。为支持持续发展,我们还维护了一个实时更新的GitHub仓库,追踪该领域的最新进展。我们希望本综述能为进一步探索奠定基础,并激发这一快速演进领域的创新。
序列推荐(SeqRec)旨在通过捕捉用户历史交互中的序列模式来预测下一个项目,在许多实际推荐系统中发挥着关键作用。然而,现有方法主要采用直接前向计算范式,其中序列编码器的最终隐藏状态作为用户表示。我们认为,这种推理范式由于计算深度有限,难以建模用户偏好的复杂演变特性,且对长尾项目的理解不够细致,导致性能欠佳。为解决这一问题,我们提出了ReaRec,这是首个面向推荐系统的推理时计算框架,通过隐式多步推理增强用户表示。具体而言,ReaRec自回归地将序列的最后一个隐藏状态输入序列推荐器,同时引入特殊的推理位置嵌入,以将原始项目编码空间与多步推理空间解耦。此外,我们提出了两种轻量级的基于推理的学习方法:集成推理学习(ERL)和渐进推理学习(PRL),以进一步有效挖掘ReaRec的推理潜力。在五个公开真实世界数据集和不同SeqRec架构上的大量实验验证了ReaRec的通用性和有效性。值得注意的是,事后分析表明,ReaRec显著提升了多个序列推荐骨干模型的性能上限,提升幅度约为30%至50%。因此,我们相信这项工作为序列推荐的推理时计算研究开辟了一条崭新且充满前景的道路。
多模态大语言模型(MLLMs)因其能够处理多样化的输入数据类型,并在各类应用中生成连贯且上下文相关的输出,而获得了广泛关注。尽管监督微调(SFT)作为提升MLLMs在特定任务优化中的能力的主要方法,但在培养关键的泛化推理能力方面往往表现不足。虽然强化学习(RL)在克服这些局限上展现出巨大潜力,但它面临两大挑战:(1) 其在多模态任务中的泛化能力仍待深入探索,(2) 其训练约束,如持续的Kullback-Leibler散度或钳制策略,常导致次优瓶颈。为应对这些挑战,我们提出了OThink-MR1,一款具备跨多模态任务深刻理解与推理能力的先进MLLM。具体而言,我们引入了带有动态Kullback-Leibler策略的群体相对策略优化(GRPO-D),显著提升了强化学习(RL)的性能。对于Qwen2-VL-2B-Instruct模型,GRPO-D在两个适配数据集上的同任务评估中,相较于SFT实现了超过5.72%的相对提升,相较于GRPO则提升了超过13.59%。此外,GRPO-D展现了卓越的跨任务泛化能力,在跨任务评估中,相较于SFT平均提升了超过61.63%。这些成果表明,采用GRPO-D训练的多模态大语言模型能够有效迁移至其他任务,凸显了我们提出的OThink-MR1模型在泛化推理能力上的卓越优势。
我们推出了ORIGEN,这是首个在跨多对象及多样类别的文本到图像生成中实现三维方向定位的零样本方法。尽管先前关于图像生成中空间定位的研究主要集中在二维定位上,却缺乏对三维方向的控制。为解决这一问题,我们提出了一种奖励引导的采样策略,该策略结合了预训练的判别模型用于三维方向估计,以及一步式文本到图像生成流模型。虽然基于梯度上升的优化是奖励引导的自然选择,但它难以保持图像的真实感。因此,我们采用了基于朗之万动力学的采样方法,该方法通过在梯度上升中简单地注入随机噪声来扩展优化过程——仅需添加一行代码。此外,我们还引入了基于奖励函数的自适应时间重缩放,以加速收敛。实验结果表明,ORIGEN在定量指标和用户研究上均优于基于训练和测试时引导的方法。
近期,语音驱动的3D说话头生成技术在唇形同步方面取得了显著进展。然而,现有模型在捕捉不同语音特征与相应唇部动作之间的感知对齐方面仍面临挑战。本研究中,我们提出三个关键标准——时间同步性、唇部可读性和表现力——对于实现感知准确的唇部动作至关重要。基于存在一个理想表示空间以满足这三项标准的假设,我们引入了一种语音-网格同步表示法,该方法能够捕捉语音信号与3D面部网格之间的精细对应关系。我们发现,所学习的表示展现出理想特性,并将其作为感知损失函数嵌入现有模型,以更好地将唇部动作与给定语音对齐。此外,我们利用这一表示作为感知度量,并引入另外两个基于物理基础的唇形同步度量,以评估生成的3D说话头与这三项标准的对齐程度。实验表明,采用我们的感知损失函数训练3D说话头生成模型,在感知准确的唇形同步的三个方面均实现了显著提升。代码与数据集已发布于https://perceptual-3d-talking-head.github.io/。
我们提出了Free4D,一种从单张图像生成4D场景的全新免调优框架。现有方法要么专注于物体级生成,使得场景级生成难以实现,要么依赖大规模多视角视频数据集进行昂贵的训练,由于4D场景数据的稀缺性,其泛化能力有限。相比之下,我们的核心洞察在于蒸馏预训练的基础模型以实现一致的4D场景表示,这带来了效率和可泛化性等显著优势。1) 为此,我们首先利用图像到视频扩散模型对输入图像进行动画化处理,随后进行4D几何结构初始化。2) 为了将这一粗略结构转化为时空一致的多视角视频,我们设计了一种自适应引导机制,结合点引导去噪策略确保空间一致性,并采用新颖的潜在替换策略保证时间连贯性。3) 为了将这些生成的观测提升为一致的4D表示,我们提出了一种基于调制的细化方法,以缓解不一致性,同时充分利用生成的信息。最终得到的4D表示支持实时可控渲染,标志着基于单张图像的4D场景生成领域的一大进步。
视觉Transformer(ViTs)在各种计算机视觉任务中展现出卓越的性能和可扩展性。为了将单尺度ViTs应用于图像分割,现有方法采用卷积适配器生成多尺度特征,像素解码器融合这些特征,以及Transformer解码器利用融合特征进行预测。本文研究表明,在模型规模足够大且预训练充分的情况下,这些任务特定组件引入的归纳偏置可由ViT自身学习获得。基于这一发现,我们提出了仅编码器掩码Transformer(EoMT),它重新利用朴素ViT架构进行图像分割。通过大规模模型和预训练,EoMT获得了与使用任务特定组件的最先进模型相媲美的分割精度。同时,得益于其架构的简洁性,EoMT显著快于这些方法,例如,使用ViT-L时速度提升高达4倍。在不同模型规模下,EoMT展示了分割精度与预测速度之间的最佳平衡,表明计算资源更应投入于扩展ViT本身而非增加架构复杂性。代码:https://www.tue-mps.org/eomt/。
在多维度扩展时,摘要精炼面临诸多挑战。本文提出ReFeed,一种强大的摘要精炼流程,通过反馈的反思性推理来增强多个维度。为此,我们发布了SumFeed-CoT,一个大规模基于长链推理(Long-CoT)的数据集,专为训练具备反思推理能力的轻量级模型而优化。实验揭示了维度数量、反馈暴露程度及推理策略如何影响精炼效果,强调反思性推理与同时处理多重反馈对于缓解维度间权衡至关重要。此外,ReFeed对噪声反馈及反馈顺序表现出良好的鲁棒性。最后,我们的发现强调,以恰当目标和指导原则创建数据是构建有效推理的基石。数据集与模型将予以公开。
近期,多视角或4D视频生成已成为一个重要的研究课题。然而,现有的4D生成方法仍面临根本性局限,主要依赖于整合多个视频扩散模型并进行额外训练,或是计算密集地训练完整的4D扩散模型,但受限于现实世界4D数据的稀缺及高昂的计算成本。为应对这些挑战,本文提出了一种无需训练即可实现的4D视频生成方法,该方法利用现成的视频扩散模型,从单一输入视频生成多视角视频。我们的方法包含两个关键步骤:(1) 通过在时空采样网格中指定边缘帧为关键帧,我们首先使用视频扩散模型合成这些关键帧,并采用基于深度的变形技术进行引导。这一策略确保了生成帧间的结构一致性,保持了空间与时间的连贯性。(2) 随后,我们利用视频扩散模型对剩余帧进行插值,构建一个完整填充且时间连贯的采样网格,同时保持空间与时间的一致性。通过这一方法,我们将单一视频沿新颖的相机轨迹扩展为多视角视频,同时维持了时空一致性。我们的方法无需训练,完全利用现成的视频扩散模型,为多视角视频生成提供了一个实用且高效的解决方案。
运动目标分割是实现高层次视觉场景理解的关键任务,并拥有众多下游应用。人类能够轻松地在视频中分割出运动物体。以往的研究主要依赖光流来提供运动线索;然而,由于部分运动、复杂形变、运动模糊及背景干扰等挑战,这种方法往往导致预测结果不尽完美。我们提出了一种新颖的运动目标分割方法,该方法结合了长程轨迹运动线索与基于DINO的语义特征,并利用SAM2通过迭代提示策略实现像素级掩码细化。我们的模型采用时空轨迹注意力机制和运动-语义解耦嵌入技术,在整合语义支持的同时优先考虑运动信息。在多种数据集上的广泛测试表明,该方法在复杂场景和多个目标的精细分割上均展现出业界领先的性能。我们的代码可在https://motion-seg.github.io/获取。
我们推出了PHYSICS,一个面向大学物理问题解决的综合基准测试。该基准包含1297道专家标注的题目,涵盖六大核心领域:经典力学、量子力学、热力学与统计力学、电磁学、原子物理学以及光学。每道题目均需运用高阶物理知识与数学推理能力。我们开发了一套稳健的自动化评估系统,以确保验证的精确性与可靠性。对领先的基础模型进行评估后,发现其存在显著局限。即便是最先进的o3-mini模型,准确率也仅为59.9%,凸显了解决高层次科学问题所面临的重大挑战。通过全面的错误分析、多样提示策略的探索,以及基于检索增强生成(RAG)的知识扩充,我们识别出关键改进领域,为未来的进步奠定了基础。
部分出于其在低精度训练和量化中的重要性,大型语言模型(LLMs)中的大规模激活现象近期成为了研究热点。然而,现有分析在范围上存在局限,且跨架构的普适性尚不明确。本文通过针对包括基于GLU与非基于GLU架构在内的广泛LLMs进行大规模激活分析,有助于填补这些空白。我们的发现挑战了先前的一些假设,其中最为关键的是:(1) 并非所有大规模激活都是有害的,即抑制它们不会导致困惑度爆炸或下游任务性能崩溃;(2) 提出的缓解策略如注意力KV偏置具有模型特异性,在某些情况下效果不佳。因此,我们探索了新颖的混合缓解策略;特别是将目标方差重缩放(TVR)与注意力KV偏置或动态Tanh(DyT)结合,在我们研究的场景中成功平衡了对大规模激活的缓解与下游模型性能的保持。我们的代码已公开于:https://github.com/bluorion-com/refine_massive_activations。
随着从二维图像生成高保真三维模型的需求日益增长,现有方法在准确再现细粒度几何细节方面仍面临重大挑战,这主要源于领域差距的限制以及RGB图像固有的模糊性。为解决这些问题,我们提出了Hi3DGen,一种通过法线桥接从图像生成高保真三维几何的新颖框架。Hi3DGen包含三个关键组件:(1) 图像到法线估计器,通过噪声注入和双流训练解耦图像的高低频模式,实现可泛化、稳定且锐利的估计;(2) 法线到几何的学习方法,采用法线正则化的潜在扩散学习,提升三维几何生成的保真度;(3) 三维数据合成管道,构建高质量数据集以支持训练。大量实验验证了我们框架在生成丰富几何细节方面的有效性和优越性,在保真度上超越了现有最先进方法。通过利用法线图作为中间表示,我们的工作为从图像生成高保真三维几何提供了新的方向。
本文提出了一种基于生物力学精确骨骼模型从单张图像重建三维人体的方法。为实现这一目标,我们训练了一个以图像为输入并估计模型参数的Transformer网络。鉴于该任务缺乏训练数据,我们构建了一个管道来为单张图像生成伪真实模型参数,并实施了一种迭代优化这些伪标签的训练流程。与当前最先进的三维人体网格恢复方法相比,我们的模型在标准基准测试中表现出竞争力,同时在极端三维姿态和视角设置下显著优于现有方法。此外,我们指出以往的重建方法常违反关节角度限制,导致不自然的旋转。相比之下,我们的方法利用生物力学上合理的自由度,从而做出更为真实的关节旋转估计。我们在多个人体姿态估计基准上验证了该方法的有效性。代码、模型及数据已公开于:https://isshikihugh.github.io/HSMR/。
创建具有任意拓扑结构的高保真三维网格,包括开放表面和复杂内部结构,仍然是一个重大挑战。现有的隐式场方法通常需要昂贵且细节损失严重的封闭转换,而其他方法则难以处理高分辨率。本文提出了SparseFlex,一种新颖的稀疏结构等值面表示方法,能够直接从渲染损失中实现分辨率高达1024^3的可微分网格重建。SparseFlex结合了Flexicubes的精确性与稀疏体素结构,将计算集中在表面邻近区域,并高效处理开放表面。关键的是,我们引入了一种视锥感知的分段体素训练策略,仅在渲染时激活相关体素,显著减少了内存消耗并实现了高分辨率训练。这也首次实现了仅通过渲染监督重建网格内部结构。在此基础上,我们通过训练变分自编码器(VAE)和整流流变压器,展示了一个完整的形状建模流程,用于高质量三维形状生成。我们的实验展示了最先进的重建精度,与之前的方法相比,Chamfer Distance减少了约82%,F-score提高了约88%,并展示了生成具有任意拓扑结构的高分辨率、细节丰富的三维形状。通过实现高分辨率、可微分网格重建与生成,SparseFlex在三维形状表示与建模领域显著推进了技术前沿。
多模态大语言模型(MLLMs)在二维图像/视频理解方面展现了卓越的能力。然而,目前尚缺乏公开的标准基准来评估MLLMs在理解四维物体(即随时间演化的三维物体)方面的能力。本文中,我们引入了4D-Bench,这是首个旨在评估MLLMs四维物体理解能力的基准,包含四维物体问答(4D object QA)和四维物体描述(4D object captioning)任务。4D-Bench提供了多样类别的四维物体、高质量的标注,以及需要多视角时空理解的任务,与现有的基于二维图像/视频的基准不同。借助4D-Bench,我们对一系列开源和闭源的MLLMs进行了评估。四维物体描述实验结果显示,MLLMs在时间理解方面普遍弱于外观理解,尤其是开源模型在外观理解上接近闭源模型表现,但在时间理解上存在较大差距。四维物体问答实验得出了令人意外的发现:即便是面对简单的单物体视频,MLLMs表现欠佳,最先进的GPT-4o仅达到63%的准确率,而人类基准为91%。这些发现凸显了四维物体理解领域的显著差距,以及MLLMs进一步发展的必要性。
开发可靠的AI系统以辅助人类临床医生进行多模态医疗诊断,长期以来一直是研究人员的核心目标。近年来,多模态大语言模型(MLLMs)在多个领域获得了广泛关注并取得了显著成功。凭借强大的推理能力及依据用户指令执行多样化任务的能力,它们在提升医疗诊断方面展现出巨大潜力。然而,直接将MLLMs应用于医疗领域仍面临挑战。这些模型对视觉输入的细节感知不足,限制了其进行定量图像分析的能力,而这对于医疗诊断至关重要。此外,MLLMs在推理过程中常出现幻觉和不一致现象,而临床诊断必须严格遵循既定标准。为应对这些挑战,我们提出了MedAgent-Pro,一个基于证据的推理代理系统,旨在实现可靠、可解释且精确的医疗诊断。该系统通过分层工作流程实现:在任务层面,基于知识的推理根据检索到的临床标准为特定疾病生成可靠的诊断方案;而在案例层面,多个工具代理处理多模态输入,按照方案分析不同指标,并基于定量与定性证据提供最终诊断。在二维和三维医疗诊断任务上的全面实验验证了MedAgent-Pro的优越性和有效性,案例研究进一步凸显了其可靠性和可解释性。代码已发布于https://github.com/jinlab-imvr/MedAgent-Pro。
传统的图像分类方法依赖于预先定义的语义类别列表。相比之下,大型多模态模型(LMMs)能够绕过这一限制,直接利用自然语言对图像进行分类(例如,回答提示“图像中的主要物体是什么?”)。尽管具备这一显著能力,现有关于LMM分类性能的研究大多出人意料地局限于封闭世界设定,即假设存在一组预定义的类别。本研究中,我们通过全面评估LMM在真正开放世界设定下的分类性能,填补了这一空白。我们首先形式化了这一任务,并引入了一套评估协议,定义了多种指标来衡量预测类别与真实类别之间的对齐程度。随后,我们在10个基准测试上评估了13个模型,涵盖了原型、非原型、细粒度及极细粒度类别,展示了LMM在此任务中面临的挑战。基于所提出指标的进一步分析揭示了LMM所犯错误的类型,强调了与粒度和细粒度能力相关的挑战,并展示了如何通过定制提示和推理来缓解这些问题。
近年来,AI在软件工程领域取得了显著进展,成为生成式AI中的一大亮点。然而,在自动化软件工程充分发挥其潜力之前,仍有许多挑战亟待解决。我们有望实现高度自动化,使人类能够专注于构建内容的关键决策以及如何平衡复杂的权衡,而大部分常规开发工作则由自动化完成。要达到这一自动化水平,需要学术界和工业界投入大量的研究和工程努力。本文旨在从三个方面探讨这一进展。首先,我们提供了一个关于AI在软件工程中具体任务的结构化分类,强调除了代码生成和补全之外,软件工程中还有许多其他任务。其次,我们概述了当前方法面临的几个关键瓶颈。最后,我们列出了一份富有见解的研究方向清单,旨在推动这些瓶颈的突破,期望能激发这一快速成熟领域的未来研究。
四维计算机断层扫描(4D CT)重建对于捕捉动态解剖变化至关重要,但传统相位分选工作流程存在固有局限。现有方法通过呼吸门控设备将时间分辨率离散化为固定相位,导致运动错位并限制了临床实用性。本文提出X^2-Gaussian,一种创新框架,通过整合动态辐射高斯泼溅与自监督呼吸运动学习,实现连续时间4D-CT重建。我们的方法采用时空编码-解码架构预测时变高斯形变,消除了相位离散化。为摆脱对外部门控设备的依赖,我们引入了一种生理驱动的周期性一致性损失,通过可微分优化直接从投影中学习患者特异性呼吸周期。大量实验表明,该方法取得了最先进的性能,相较于传统方法提升了9.93 dB的峰值信噪比(PSNR),并较先前高斯泼溅技术提高了2.25 dB。通过将连续运动建模与无硬件周期学习相结合,X^2-Gaussian推动了动态临床成像中高保真4D CT重建的进步。项目网站:https://x2-gaussian.github.io/。
意图,通常明确制定并规划,作为推理和问题解决的认知框架发挥作用。本文在大语言模型(LLMs)中引入了“有意图对话”(Speaking with Intent, SWI)的概念,其中明确生成的意图封装了模型的潜在意图,并提供高层规划以指导后续的分析与交流。通过模拟人类思维中深思熟虑且目标明确的思考过程,SWI被假设为能够增强LLMs的推理能力和生成质量。在数学推理基准上的大量实验一致表明,有意图对话相较于基线(即无明确意图的生成)具有显著优势。此外,SWI在触发答案提示方法如“思维链”(Chain-of-Thought)和“计划与解决”(Plan-and-Solve)之上表现更优,并与强方法ARR(分析、检索与推理)保持竞争力。同时,SWI在推理密集型问答(QA)和文本摘要基准上的有效性和泛化能力得到巩固,为基线生成带来了持续的改进。在文本摘要任务中,SWI生成的摘要展现出更高的准确性、简洁性和事实正确性,幻觉现象更少。进一步地,人类评估验证了SWI生成意图的连贯性、有效性和可解释性。这项概念验证研究为利用认知概念增强LLMs的推理能力开辟了一条新途径。