每日精选AI研究论文及翻译
计算机视觉(CV)尚未完全实现自然语言处理(NLP)中观察到的零-shot任务泛化,尽管遵循了NLP中建立的许多里程碑,如大型变压器模型、广泛的预训练和自回归范式等。在本文中,我们探讨了一个观点,即CV采用离散和术语化的任务定义(例如,“图像分割”),这可能是零-shot任务泛化的关键障碍。我们的假设是,由于这些术语化定义,深度模型在没有真正理解先前见过的任务的情况下很难推广到新任务。为了验证这一点,我们引入了解释性指令,通过从输入图像到输出的详细语言转换提供了一种直观定义CV任务目标的方式。我们创建了一个包含1200万个“图像输入到解释性指令到输出”三元组的大规模数据集,并训练了一个以自回归为基础的视觉-语言模型(AR-based VLM),该模型将图像和解释性指令作为输入。通过学习遵循这些指令,AR-based VLM实现了先前见过任务的指令级零-shot能力,并展示了对未见CV任务的强大零-shot泛化能力。代码和数据集将在我们的GitHub存储库上公开提供。
多模态大型语言模型(MLLMs)在医学领域具有重要潜力,但其能力常常受到某些医学领域数据不足的限制,突显了需要了解MLLMs可以用什么类型的图像进行泛化的必要性。当前研究表明,多任务训练优于单一任务,因为不同任务可以相互受益,但它们常常忽视这些任务内部的关系,提供有限的指导以选择增强特定任务的数据集。为了分析这一现象,我们尝试使用组合泛化(CG)——模型理解通过重新组合学习元素而形成的新组合的能力——作为指导框架。由于医学图像可以通过模态、解剖区域和任务精确定义,自然地提供了一个探索CG的环境。因此,我们汇集了106个医学数据集创建Med-MAT进行全面实验。实验证实,MLLMs可以利用CG理解未见过的医学图像,并确定CG是多任务训练中观察到的泛化的主要驱动因素之一。此外,进一步研究表明,CG有效地支持数据有限的数据集,并在不同的骨干结构上提供一致的性能,突显了其多功能性和广泛适用性。Med-MAT可在https://github.com/FreedomIntelligence/Med-MAT 公开获取。
大型语言模型(LLMs)的快速演进已经解锁了它们在高级推理任务中的能力,如数学问题求解、代码生成和法律分析。这一进展的核心是推理时的推理算法,通过探索多条解决路径来优化输出,但这会增加计算需求和响应延迟。现有的服务系统无法适应这些算法的扩展行为或查询难度的变化,导致资源利用效率低下,无法满足延迟目标。 我们提出了Dynasor,这是一个为LLM推理查询优化推理时计算的系统。与传统引擎不同,Dynasor跟踪和调度推理查询中的请求,并使用Certaindex,一种基于模型确定性衡量统计推理进展的代理,动态地指导计算分配。Dynasor将调度与推理进展相互适应:它为难度较大的查询分配更多计算资源,减少简单查询的计算量,并及早终止无前途的查询,平衡准确性、延迟和成本。在各种数据集和算法上,Dynasor在批处理中将计算量减少了高达50%,并在在线服务中保持了3.3倍更高的查询速率或4.7倍更紧密的延迟SLOs。
作为一个经过验证的需求,跨野外图像的一致编辑仍然是一个技术挑战,由于各种无法控制的因素,如物体姿势、光照条件和摄影环境。Edicho提出了一种基于扩散模型的无需训练的解决方案,其基本设计原则是利用显式图像对应关系来指导编辑。具体来说,关键组件包括一个注意力操纵模块和一个精心设计的无分类器引导(CFG)去噪策略,两者都考虑了预估的对应关系。这种推断时算法具有即插即用的特性,并与大多数基于扩散的编辑方法兼容,如ControlNet和BrushNet。大量结果展示了Edicho在不同设置下进行一致跨图像编辑的有效性。我们将发布代码以促进未来的研究。
我们提出PERSE方法,用于根据参考肖像构建可动画化的个性化生成式虚拟形象。该虚拟形象模型能够在连续解耦的潜在空间中进行面部属性编辑,实现对每个面部属性的精准控制,同时保持个体的身份特征。为实现这一目标,我们的方法首先生成大规模合成二维视频数据集,每个视频在保持面部表情和视角连续变化的同时,结合原始输入中特定面部属性的变异。我们提出了一种创新流程来生成具有面部属性编辑功能的高质量、逼真二维视频。基于此合成属性数据集,我们提出基于3D高斯溅射的个性化虚拟形象创建方法,通过学习连续解耦的潜在空间实现直观的面部属性操控。为强化潜在空间中的平滑过渡,我们引入潜在空间正则化技术,通过插值生成的二维人脸作为监督信号。与现有方法相比,我们证明PERSE能在保持参考对象身份特征的同时,生成具有插值属性的高质量虚拟形象。
大型语言模型(LLM)技术的飞速发展催生了功能强大的开源指令调优模型,其文本生成质量已媲美GPT-4等顶尖模型。尽管此类模型的出现加速了LLM技术在敏感信息环境中的应用,但模型作者并未公开实现结果所需的训练数据,导致研究成果具有模型排他性。由于这些开源模型具备多语言特性,训练特定语言LLM的收益随之降低——提升推理计算效率成为这种高成本操作唯一确定的优势。而词汇扩展及后续持续预训练等更具成本效益的方案,也因缺乏高质量指令调优数据的支持而受限,须知这类数据正是决定LLM任务解决能力的关键因素。 为突破现有局限并降低语言适配流程的成本,我们提出嵌入传播学习法(LEP)。与现有方法不同,本方法通过新型自适应嵌入传播机制强化现有LLM知识体系,对模型原有知识影响极小,因而显著降低训练数据量需求。该技术可跳过指令调优步骤,直接将新语言知识植入现有指令调优模型。我们在LLaMa-3-8B和Mistral-7B上进行了四项俄语词汇适配实验,结果表明LEP与传统指令调优方法性能相当,达到与OpenChat 3.5和LLaMa-3-8B-Instruct可比拟的水平,且通过自校准与持续调优能进一步提升任务解决能力。
我们介绍了OneKE,这是一个基于Docker的模式引导知识提取系统,可以从网络和原始PDF图书中提取知识,并支持各种领域(科学、新闻等)。具体来说,我们设计了OneKE,其中包括多个代理和一个配置知识库。不同的代理执行各自的角色,支持各种提取场景。配置知识库促进了模式配置、错误案例调试和修正,进一步提高了性能。在基准数据集上进行的实证评估显示了OneKE的有效性,而案例研究进一步阐明了其对跨多个领域的各种任务的适应性,突显了其广泛应用潜力。我们已在https://github.com/zjunlp/OneKE开源了代码,并发布了一个视频,网址为http://oneke.openkg.cn/demo.mp4。
最近,“视觉 o1” 开始进入人们的视野,期望这种缓慢思考的设计能够解决视觉推理任务,特别是几何数学问题。然而,现实是目前的 LVLMs(大型视觉语言模型)甚至难以准确复制一个几何图形,更不用说真正理解几何形状中复杂的内在逻辑和空间关系了。我们认为准确复制(强感知)是视觉 o1 的第一步。因此,我们引入了“缓慢感知”(SP)的概念,指导模型逐渐感知基本的点线组合,就像我们人类逐步重建复杂的几何结构一样。SP 有两个阶段:a)感知分解。感知不是瞬间完成的。在这个阶段,复杂的几何图形被分解为基本的简单单元,以统一几何表示。b)感知流,承认准确追踪一条线并不是一项容易的任务。这个阶段旨在通过使用提出的“感知标尺”逐笔追踪每条线段,避免在回归线段时出现“长距离的视觉跳跃”。令人惊讶的是,这种类似人类感知方式享有一个推理时间缩放定律 —— 越慢越好。研究人员过去努力加快模型的感知速度,但我们再次减缓速度,让模型逐步仔细地阅读图像。
我们引入了自调用代码生成,这是一个旨在评估LLMs的渐进推理和问题解决能力的新任务。在这个任务中,模型被呈现一个基本问题和一个相关的更复杂的问题。它们必须解决基本问题,然后利用其解决方案来解决更复杂的问题。这项工作包括三个关键贡献。首先,我们提出了一般的生成更具挑战性版本的现有基准的方法,从而产生了三个新基准:HumanEval Pro、MBPP Pro和BigCodeBench-Lite Pro,专门设计用于评估LLMs的自调用代码生成。其次,通过对我们基准上二十个LLMs的实验结果进行分析,我们得出了两个重要观察结果:(i) 大多数LLMs在传统的代码生成基准(如HumanEval和MBPP)中表现出色,但在自调用任务中表现下降。例如,o1-mini在HumanEval上达到了96.2%的pass@1,但在HumanEval Pro上只有76.2%。(ii) 在自调用代码生成任务中,经过指令调整的模型与基本模型相比仅表现出轻微改进。第三,我们披露了存在于我们评估结果中的失败模式类型。所有这些结果强调了在自调用代码生成任务中需要进一步的进展,并为未来研究LLMs代码推理能力的增强提供了一个新方向。