每日精选AI研究论文及翻译
计算机视觉(CV)尚未完全实现自然语言处理(NLP)中观察到的零-shot任务泛化,尽管遵循了NLP中建立的许多里程碑,如大型变压器模型、广泛的预训练和自回归范式等。在本文中,我们探讨了一个观点,即CV采用离散和术语化的任务定义(例如,“图像分割”),这可能是零-shot任务泛化的关键障碍。我们的假设是,由于这些术语化定义,深度模型在没有真正理解先前见过的任务的情况下很难推广到新任务。为了验证这一点,我们引入了解释性指令,通过从输入图像到输出的详细语言转换提供了一种直观定义CV任务目标的方式。我们创建了一个包含1200万个“图像输入到解释性指令到输出”三元组的大规模数据集,并训练了一个以自回归为基础的视觉-语言模型(AR-based VLM),该模型将图像和解释性指令作为输入。通过学习遵循这些指令,AR-based VLM实现了先前见过任务的指令级零-shot能力,并展示了对未见CV任务的强大零-shot泛化能力。代码和数据集将在我们的GitHub存储库上公开提供。
多模态大型语言模型(MLLMs)在医学领域具有重要潜力,但其能力常常受到某些医学领域数据不足的限制,突显了需要了解MLLMs可以用什么类型的图像进行泛化的必要性。当前研究表明,多任务训练优于单一任务,因为不同任务可以相互受益,但它们常常忽视这些任务内部的关系,提供有限的指导以选择增强特定任务的数据集。为了分析这一现象,我们尝试使用组合泛化(CG)——模型理解通过重新组合学习元素而形成的新组合的能力——作为指导框架。由于医学图像可以通过模态、解剖区域和任务精确定义,自然地提供了一个探索CG的环境。因此,我们汇集了106个医学数据集创建Med-MAT进行全面实验。实验证实,MLLMs可以利用CG理解未见过的医学图像,并确定CG是多任务训练中观察到的泛化的主要驱动因素之一。此外,进一步研究表明,CG有效地支持数据有限的数据集,并在不同的骨干结构上提供一致的性能,突显了其多功能性和广泛适用性。Med-MAT可在https://github.com/FreedomIntelligence/Med-MAT 公开获取。
最近生成建模的进展使得可以利用文本提示控制创作4D内容(移动的3D物体)。4D生成在虚拟世界、媒体和游戏等领域具有巨大潜力,但现有方法对生成内容的外观和几何形状控制有限。在这项工作中,我们介绍了一种方法,通过以文本提示为指导进行4D生成,从而实现对用户提供的3D物体进行动画处理,实现定制动画同时保持原始物体的身份特征。我们首先将3D网格转换为保留输入物体视觉属性的“静态”4D神经辐射场(NeRF)。然后,我们使用由文本驱动的图像到视频扩散模型对物体进行动画处理。为了提高动态逼真度,我们引入了一种增量视角选择协议,用于采样透视图以促进逼真运动,并引入了基于掩码的得分蒸馏采样(SDS)损失,利用注意力图将优化集中在相关区域。我们通过时间连贯性、提示遵从性和视觉保真度评估了我们的模型,并发现我们的方法胜过基于其他方法的基准线,在使用LPIPS分数衡量的身份保持方面实现了最多三倍的改进,并有效平衡了视觉质量和动态内容。
像OpenAI o1这样的模型表现出色的原因在于它们在推理过程中能够模拟类似人类的长期思考能力。这些模型采用了扩展的“思维链”(CoT)过程,探索多种策略以增强解决问题的能力。然而,一个关键问题仍然存在:如何在测试过程中智能且高效地扩展计算资源。本文首次全面研究了这些模型中普遍存在的“过度思考”问题,即为简单问题分配过多计算资源而获益甚微。我们从结果和过程两个角度引入了新颖的效率度量标准,以评估类似o1的模型对计算资源的合理利用。通过自我训练范式,我们提出了减轻“过度思考”的策略,简化推理过程而不影响准确性。实验结果表明,我们的方法成功减少了计算开销,同时在一系列具有不同难度级别的测试集(如GSM8K、MATH500、GPQA和AIME)上保持了模型性能。
大型语言模型(LLMs)的快速演进已经解锁了它们在高级推理任务中的能力,如数学问题求解、代码生成和法律分析。这一进展的核心是推理时的推理算法,通过探索多条解决路径来优化输出,但这会增加计算需求和响应延迟。现有的服务系统无法适应这些算法的扩展行为或查询难度的变化,导致资源利用效率低下,无法满足延迟目标。 我们提出了Dynasor,这是一个为LLM推理查询优化推理时计算的系统。与传统引擎不同,Dynasor跟踪和调度推理查询中的请求,并使用Certaindex,一种基于模型确定性衡量统计推理进展的代理,动态地指导计算分配。Dynasor将调度与推理进展相互适应:它为难度较大的查询分配更多计算资源,减少简单查询的计算量,并及早终止无前途的查询,平衡准确性、延迟和成本。在各种数据集和算法上,Dynasor在批处理中将计算量减少了高达50%,并在在线服务中保持了3.3倍更高的查询速率或4.7倍更紧密的延迟SLOs。
我们提出了SWE-Gym,这是用于训练真实世界软件工程(SWE)代理的第一个环境。SWE-Gym包含2,438个真实世界的Python任务实例,每个实例包括一个带有可执行运行环境、单元测试和自然语言任务描述的代码库。我们使用SWE-Gym来训练基于语言模型的SWE代理,在流行的SWE-Bench Verified和Lite测试集上实现高达19%的绝对解决率提升。我们还尝试通过在从SWE-Gym中采样的代理轨迹上训练的验证器进行推理时间缩放。与我们微调的SWE代理相结合时,在SWE-Bench Verified和Lite上分别实现32.0%和26.0%,体现了开放权重SWE代理的最新技术水平。为了促进进一步研究,我们公开发布了SWE-Gym、模型和代理轨迹。
我们介绍了TangoFlux,一种高效的文本转音频(TTA)生成模型,拥有5.15亿个参数,能够在单个A40 GPU上仅用3.7秒生成长达30秒的44.1kHz音频。在对齐TTA模型时的一个关键挑战在于创建偏好对的困难,因为TTA缺乏类似于大型语言模型(LLMs)可用的可验证奖励或黄金标准答案等结构化机制。为了解决这个问题,我们提出了CLAP-Ranked Preference Optimization(CRPO),这是一个新颖的框架,通过迭代生成和优化偏好数据来增强TTA的对齐性。我们展示了使用CRPO生成的音频偏好数据集优于现有的替代方案。借助这一框架,TangoFlux在客观和主观基准测试中均实现了最先进的性能。我们开源所有代码和模型,以支持TTA生成领域的进一步研究。
作为一个经过验证的需求,跨野外图像的一致编辑仍然是一个技术挑战,由于各种无法控制的因素,如物体姿势、光照条件和摄影环境。Edicho提出了一种基于扩散模型的无需训练的解决方案,其基本设计原则是利用显式图像对应关系来指导编辑。具体来说,关键组件包括一个注意力操纵模块和一个精心设计的无分类器引导(CFG)去噪策略,两者都考虑了预估的对应关系。这种推断时算法具有即插即用的特性,并与大多数基于扩散的编辑方法兼容,如ControlNet和BrushNet。大量结果展示了Edicho在不同设置下进行一致跨图像编辑的有效性。我们将发布代码以促进未来的研究。
我们提出PERSE方法,用于根据参考肖像构建可动画化的个性化生成式虚拟形象。该虚拟形象模型能够在连续解耦的潜在空间中进行面部属性编辑,实现对每个面部属性的精准控制,同时保持个体的身份特征。为实现这一目标,我们的方法首先生成大规模合成二维视频数据集,每个视频在保持面部表情和视角连续变化的同时,结合原始输入中特定面部属性的变异。我们提出了一种创新流程来生成具有面部属性编辑功能的高质量、逼真二维视频。基于此合成属性数据集,我们提出基于3D高斯溅射的个性化虚拟形象创建方法,通过学习连续解耦的潜在空间实现直观的面部属性操控。为强化潜在空间中的平滑过渡,我们引入潜在空间正则化技术,通过插值生成的二维人脸作为监督信号。与现有方法相比,我们证明PERSE能在保持参考对象身份特征的同时,生成具有插值属性的高质量虚拟形象。
大型语言模型(LLM)技术的飞速发展催生了功能强大的开源指令调优模型,其文本生成质量已媲美GPT-4等顶尖模型。尽管此类模型的出现加速了LLM技术在敏感信息环境中的应用,但模型作者并未公开实现结果所需的训练数据,导致研究成果具有模型排他性。由于这些开源模型具备多语言特性,训练特定语言LLM的收益随之降低——提升推理计算效率成为这种高成本操作唯一确定的优势。而词汇扩展及后续持续预训练等更具成本效益的方案,也因缺乏高质量指令调优数据的支持而受限,须知这类数据正是决定LLM任务解决能力的关键因素。 为突破现有局限并降低语言适配流程的成本,我们提出嵌入传播学习法(LEP)。与现有方法不同,本方法通过新型自适应嵌入传播机制强化现有LLM知识体系,对模型原有知识影响极小,因而显著降低训练数据量需求。该技术可跳过指令调优步骤,直接将新语言知识植入现有指令调优模型。我们在LLaMa-3-8B和Mistral-7B上进行了四项俄语词汇适配实验,结果表明LEP与传统指令调优方法性能相当,达到与OpenChat 3.5和LLaMa-3-8B-Instruct可比拟的水平,且通过自校准与持续调优能进一步提升任务解决能力。
我们介绍了OneKE,这是一个基于Docker的模式引导知识提取系统,可以从网络和原始PDF图书中提取知识,并支持各种领域(科学、新闻等)。具体来说,我们设计了OneKE,其中包括多个代理和一个配置知识库。不同的代理执行各自的角色,支持各种提取场景。配置知识库促进了模式配置、错误案例调试和修正,进一步提高了性能。在基准数据集上进行的实证评估显示了OneKE的有效性,而案例研究进一步阐明了其对跨多个领域的各种任务的适应性,突显了其广泛应用潜力。我们已在https://github.com/zjunlp/OneKE开源了代码,并发布了一个视频,网址为http://oneke.openkg.cn/demo.mp4。
最近,“视觉 o1” 开始进入人们的视野,期望这种缓慢思考的设计能够解决视觉推理任务,特别是几何数学问题。然而,现实是目前的 LVLMs(大型视觉语言模型)甚至难以准确复制一个几何图形,更不用说真正理解几何形状中复杂的内在逻辑和空间关系了。我们认为准确复制(强感知)是视觉 o1 的第一步。因此,我们引入了“缓慢感知”(SP)的概念,指导模型逐渐感知基本的点线组合,就像我们人类逐步重建复杂的几何结构一样。SP 有两个阶段:a)感知分解。感知不是瞬间完成的。在这个阶段,复杂的几何图形被分解为基本的简单单元,以统一几何表示。b)感知流,承认准确追踪一条线并不是一项容易的任务。这个阶段旨在通过使用提出的“感知标尺”逐笔追踪每条线段,避免在回归线段时出现“长距离的视觉跳跃”。令人惊讶的是,这种类似人类感知方式享有一个推理时间缩放定律 —— 越慢越好。研究人员过去努力加快模型的感知速度,但我们再次减缓速度,让模型逐步仔细地阅读图像。
我们引入了自调用代码生成,这是一个旨在评估LLMs的渐进推理和问题解决能力的新任务。在这个任务中,模型被呈现一个基本问题和一个相关的更复杂的问题。它们必须解决基本问题,然后利用其解决方案来解决更复杂的问题。这项工作包括三个关键贡献。首先,我们提出了一般的生成更具挑战性版本的现有基准的方法,从而产生了三个新基准:HumanEval Pro、MBPP Pro和BigCodeBench-Lite Pro,专门设计用于评估LLMs的自调用代码生成。其次,通过对我们基准上二十个LLMs的实验结果进行分析,我们得出了两个重要观察结果:(i) 大多数LLMs在传统的代码生成基准(如HumanEval和MBPP)中表现出色,但在自调用任务中表现下降。例如,o1-mini在HumanEval上达到了96.2%的pass@1,但在HumanEval Pro上只有76.2%。(ii) 在自调用代码生成任务中,经过指令调整的模型与基本模型相比仅表现出轻微改进。第三,我们披露了存在于我们评估结果中的失败模式类型。所有这些结果强调了在自调用代码生成任务中需要进一步的进展,并为未来研究LLMs代码推理能力的增强提供了一个新方向。