每日精选AI研究论文及翻译
在这项工作中,我们介绍了OmniGen,这是一种用于统一图像生成的新扩散模型。与流行的扩散模型(例如,稳定扩散)不同,OmniGen不再需要额外的模块,如ControlNet或IP-Adapter来处理各种控制条件。OmniGen的特点包括:1)统一性:OmniGen不仅展示了文本到图像生成的能力,还内在地支持其他下游任务,如图像编辑、主体驱动生成和视觉条件生成。此外,OmniGen可以通过将它们转换为图像生成任务来处理经典的计算机视觉任务,如边缘检测和人体姿势识别。2)简单性:OmniGen的架构非常简化,无需额外的文本编码器。此外,与现有的扩散模型相比,它更加用户友好,使得可以通过指令完成复杂任务,无需额外的预处理步骤(例如,人体姿势估计),从而显著简化图像生成的工作流程。3)知识转移:通过以统一格式学习,OmniGen有效地在不同任务之间转移知识,管理未见过的任务和领域,并展示新的能力。我们还探讨了模型的推理能力以及链式思维机制的潜在应用。这项工作代表了通用图像生成模型的首次尝试,但仍存在一些未解决的问题。我们将在https://github.com/VectorSpaceLab/OmniGen 开源相关资源,以促进该领域的进展。
我们介绍了NVLM 1.0,这是一系列前沿级多模态大型语言模型(LLMs),在视觉-语言任务上取得了最先进的结果,与领先的专有模型(如GPT-4o)和开放获取模型(如Llama 3-V 405B和InternVL 2)不相上下。值得注意的是,NVLM 1.0在多模态训练后显示出比其LLM骨干更好的纯文本性能。在模型设计方面,我们对解码器-仅多模态LLMs(如LLaVA)和基于交叉注意力的模型(如Flamingo)进行了全面比较。根据这两种方法的优势和劣势,我们提出了一种增强训练效率和多模态推理能力的新型架构。此外,我们为基于瓦片的动态高分辨率图像引入了一种1-D瓦片标记设计,这显著提升了在多模态推理和OCR相关任务上的性能。关于训练数据,我们精心策划并提供了关于我们的多模态预训练和监督微调数据集的详细信息。我们的研究结果表明,数据集质量和任务多样性比规模更重要,即使在预训练阶段,在所有架构中也是如此。值得注意的是,我们为NVLM-1.0模型开发了生产级多模态能力,使其在视觉-语言任务中表现出色,同时与其LLM骨干相比,甚至改善了纯文本性能。为了实现这一点,我们将高质量的纯文本数据集与多模态训练相结合,同时提供大量的多模态数学和推理数据,从而增强了各种模态的数学和编码能力。为推动该领域的研究,我们将发布模型权重,并将代码开源给社区:https://nvlm-project.github.io/。
最近的研究表明,大型扩散模型可以通过将深度估计视为一项图像条件图像生成任务,被重新利用为高精度的单目深度估计器。虽然所提出的模型取得了最先进的结果,但由于多步推断带来的高计算需求限制了其在许多场景中的使用。在本文中,我们展示了感知效率低下是由推断流程中的一个缺陷导致的,这一点迄今为止尚未被注意到。修正后的模型在性能上与先前报告的最佳配置相媲美,而速度却快了200多倍。为了优化下游任务性能,我们在单步模型的基础上执行端到端微调,使用特定于任务的损失,得到一个胜过所有其他基于扩散的深度和法线估计模型的确定性模型,表现优异于常见的零样本基准测试。令人惊讶的是,我们发现这种微调协议也可直接应用于稳定扩散,并实现了与当前最先进的基于扩散的深度和法线估计模型相媲美的性能,质疑了一些先前研究得出的结论。
在3D建模中,设计师经常使用现有的3D模型作为参考来创建新模型。这种做法启发了Phidias的开发,这是一种新颖的生成模型,它使用扩散来进行参考增强的3D生成。在给定一幅图像的情况下,我们的方法利用检索或用户提供的3D参考模型来引导生成过程,从而提升生成质量、泛化能力和可控性。我们的模型集成了三个关键组件:1)元控制网络,动态调节条件强度;2)动态参考路由,减轻输入图像和3D参考之间的不对齐;3)自参增强,实现具有渐进课程的自监督训练。总体而言,这些设计相对于现有方法有明显的改进。Phidias建立了一个统一的框架,用于使用文本、图像和3D条件进行3D生成,具有多种应用。
指令调整的语言模型(LM)能够响应命令,提供比基础模型更自然的用户界面。在这项工作中,我们提出了Promptriever,这是第一个能够像LM一样被提示的检索模型。为了训练Promptriever,我们从MS MARCO中策划并发布了一个新的实例级指令训练集,涵盖了近50万个实例。Promptriever不仅在标准检索任务上表现出色,而且能够遵循指令。我们观察到:(1)在遵循详细相关性指令方面取得了巨大进展(在FollowIR上达到了SoTA,+14.3 p-MRR / +3.1 nDCG),(2)对查询+指令中的词汇选择/措辞显著增强了鲁棒性(在InstructIR上的Robustness@10增加了12.9),以及(3)通过提示执行超参数搜索以可靠提高检索性能的能力(在BEIR上平均增加了1.4)。Promptriever展示了检索模型可以根据每个查询进行提示控制,为将来将LM提示技术与信息检索相结合的工作奠定了基础。
潜在扩散模型在文本转音频(T2A)生成任务中表现出有希望的结果,然而先前的模型在生成质量、计算成本、扩散采样和数据准备方面遇到了困难。在本文中,我们介绍了 EzAudio,一种基于变压器的 T2A 扩散模型,用于解决这些挑战。我们的方法包括几个关键创新:(1)我们在一维波形变分自动编码器(VAE)的潜在空间上构建 T2A 模型,避免了处理二维频谱表示和使用额外神经声码器的复杂性。(2)我们设计了一种针对音频潜在表示和扩散建模的优化扩散变压器架构,增强了收敛速度、训练稳定性和内存使用,使训练过程更加简单和高效。(3)为了解决数据稀缺问题,我们采用了一种数据高效的训练策略,利用未标记数据学习声学依赖关系,利用音频-语言模型注释的音频字幕数据学习文本到音频的对齐,以及使用人工标记数据进行微调。(4)我们引入了一种无分类器指导(CFG)重新缩放方法,通过在使用更大 CFG 分数时实现强大的提示对齐,同时保持出色的音频质量,消除了在平衡这种权衡时寻找最佳 CFG 分数的困难。EzAudio 在客观指标和主观评估中均超越了现有的开源模型,提供了逼真的听觉体验,同时保持了简化的模型结构、低训练成本和易于遵循的训练流程。代码、数据和预训练模型发布在:https://haidog-yaqub.github.io/EzAudio-Page/。
先前的研究工作已经评估了使用有限指标(如困惑度或少量基本知识任务以及旧数据集)的量化LLMs。此外,最近的大规模模型,如Llama 3.1,最高可达405B,尚未得到彻底检验。本文评估了在各种量化方法(GPTQ、AWQ、SmoothQuant和FP8)上对从7B到405B范围内的指令调整LLMs的性能。通过13个基准测试,我们评估了六种任务类型的性能:常识问答、知识和语言理解、遵循指令、幻觉检测、数学和对话。我们的主要发现包括:(1)将较大的LLM量化为与较小的FP16 LLM类似大小通常在大多数基准测试中表现更好,但在幻觉检测和遵循指令方面除外;(2)性能因不同的量化方法、模型大小和位宽而显著变化,仅权重方法通常在较大模型中产生更好的结果;(3)任务难度并不显著影响由于量化而导致的准确性下降;以及(4)MT-Bench评估方法在近期表现优异的LLMs之间具有有限的区分能力。
视频扩散模型展现出在生成高质量视频方面的巨大潜力,因此成为越来越受关注的焦点。然而,由于其固有的迭代特性,导致了巨大的计算和时间成本。尽管已经做出努力加速视频扩散,如通过一致性蒸馏等技术减少推断步骤和 GAN 训练,但这些方法往往在性能或训练稳定性方面存在不足。在本研究中,我们引入了一个两阶段训练框架,有效地将一致性蒸馏与 GAN 训练相结合,以解决这些挑战。此外,我们提出了一种新颖的视频鉴别器设计,消除了解码视频潜变量的需要,并提高了最终性能。我们的模型能够仅通过一步即生成高质量视频,并具有进行多步细化以进一步提高性能的灵活性。我们在 OpenWebVid-1M 基准上的定量评估显示,我们的模型明显优于现有方法。值得注意的是,我们的一步性能(FVD 171.15)超过了基于一致性蒸馏的方法 AnimateLCM 的 8 步性能(FVD 184.79),并接近先进的 Stable Video Diffusion 的 25 步性能(FVD 156.94)。
基于代理的建模(ABM)旨在通过模拟一组在环境中行动和互动的代理来理解复杂系统的行为。它们的实际效用需要捕捉现实环境动态和适应性代理行为,同时有效地模拟百万规模的人口。最近大型语言模型(LLMs)的进展为通过将LLMs作为代理来增强ABMs提供了机会,进一步捕捉适应性行为的潜力。然而,由于在大规模人口中使用LLMs的计算不可行性,阻碍了它们的广泛采用。在本文中,我们介绍AgentTorch——一个能够将ABMs扩展到数百万代理并利用LLMs捕捉高分辨率代理行为的框架。我们评估LLMs作为ABM代理的效用,探讨模拟规模与个体代理之间的权衡。以COVID-19大流行为案例研究,我们展示了AgentTorch如何模拟代表纽约市的840万代理,捕捉隔离和就业行为对健康和经济结果的影响。我们比较基于启发式和LLM代理的不同代理架构在预测疾病波和失业率方面的性能。此外,我们展示了AgentTorch在回顾性、反事实和前瞻性分析方面的能力,突显了适应性代理行为如何帮助克服历史数据在政策设计中的局限性。AgentTorch是一个开源项目,正在全球范围内用于政策制定和科学发现。该框架可在此处获取:github.com/AgentTorch/AgentTorch。
我们专注于四足机器人在楼梯和踏石等不连续地形中的敏捷、连续和适应性跳跃。与单步跳跃不同,连续跳跃需要准确执行长时间跨度内的高动态运动,这对现有方法来说是具有挑战性的。为了完成这一任务,我们设计了一个分层学习和控制框架,包括用于稳健地形感知的学习高度图预测器、基于强化学习的质心级运动策略以实现多功能和地形自适应规划,以及用于精确运动跟踪的基于模型的低级腿部控制器。此外,我们通过准确建模硬件特性来最小化仿真到实际的差距。我们的框架使得Unitree Go1机器人能够据我们所知首次在人高的楼梯和稀疏的踏石上执行敏捷和连续的跳跃。特别地,该机器人可以在每次跳跃中跨越两个楼梯台阶,并在4.5秒内完成一段长3.5米、高2.8米、14级台阶的楼梯。此外,相同策略在各种其他跑酷任务中表现优异,如跳过单个水平或垂直不连续。实验视频可在https://yxyang.github.io/jumping\_cod/找到。
在计算机视觉和图形学中,从多视图图像中数字化3D静态场景和4D动态事件长期以来一直是一个挑战。最近,3D高斯飞溅(3DGS)已经成为一种实用且可扩展的重建方法,因其令人印象深刻的重建质量、实时渲染能力以及与广泛使用的可视化工具兼容而备受青睐。然而,该方法需要大量的输入视图才能实现高质量的场景重建,这引入了一个重要的实际瓶颈。在捕捉动态场景时,部署大规模摄像机阵列可能成本过高,这一挑战尤为严峻。在这项工作中,我们确定了高斯飞溅特征缺乏空间自相关性是导致3DGS技术在稀疏重建环境中表现不佳的因素之一。为解决这一问题,我们提出了一种优化策略,通过将其建模为相应的隐式神经场的输出,有效地规范化飞溅特征。这导致在各种场景中重建质量的一致提升。我们的方法有效处理静态和动态情况,通过在不同设置和场景复杂性下进行广泛测试加以证明。
LLM是检索增强生成(RAG)系统中不可或缺的一部分。虽然许多研究侧重于评估端到端RAG系统的质量,但对LLM在RAG任务中的适用性缺乏研究。因此,我们引入了一个新的度量标准,Trust-Score,提供了对LLM在RAG框架中可信度的全面评估。我们展示了各种提示方法,如上下文学习,未能有效地使LLM适应RAG任务。因此,我们提出了Trust-Align,一个用于使LLM对齐以获得更高Trust-Score的框架。与我们的方法对齐的LLaMA-3-8b,在ASQA(提高10.7)、QAMPARI(提高29.2)和ELI5(提高14.9)上显著优于开源具有相似规模的LLM。我们在以下网址发布了我们的代码:https://github.com/declare-lab/trust-align。
理解情绪对人类互动和体验至关重要。人类很容易从情境或面部表情中推断情绪,从情绪中推断情境,并进行各种其他情感认知。现代人工智能在这些推断方面表现如何?我们引入了一个评估框架,用于测试基础模型中的情感认知能力。从心理学理论出发,我们生成了1,280个多样化情境,探索评估、情绪、表情和结果之间的关系。我们评估了基础模型(GPT-4、Claude-3、Gemini-1.5-Pro)和人类(N = 567)在精心选择的条件下的能力。我们的结果显示,基础模型往往与人类直觉一致,匹配或超过参与者间的一致性。在某些条件下,模型表现“超人类”——它们比平均人类更好地预测模态人类的判断。所有模型都受益于思维链推理。这表明基础模型已经获得了类似人类的对情绪及其对信念和行为的影响的理解。
隐式神经表示(INR)利用神经网络将坐标输入转换为相应属性,最近在几个与视觉相关的领域取得了重大进展。然而,INR的性能受其多层感知器(MLP)架构中所使用的非线性激活函数选择的影响很大。已经研究了多种非线性激活函数;然而,当前的INR在捕获高频成分、多样信号类型和处理逆问题方面存在局限性。我们发现这些问题可以通过在INR中引入一种范式转变来极大缓解。我们发现,在初始层具有可学习激活的架构可以表示底层信号中的细节。具体而言,我们提出了SL^{2}A-INR,这是一个用于INR的混合网络,具有单层可学习激活函数,促进了传统基于ReLU的MLP的有效性。我们的方法在包括图像表示、3D形状重建、修补、单图像超分辨率、CT重建和新视角合成在内的多样任务中表现出色。通过全面实验,SL^{2}A-INR为INR设定了新的准确性、质量和收敛速度基准。
最近生成式AI音乐系统的迅猛发展引发了人们对数据版权、从音乐人那里获取许可以及开源AI与大型知名公司之间的冲突等诸多担忧。这些问题凸显了公开可用、无版权音乐数据的需求,特别是对于象征性音乐数据的需求。为了缓解这一问题,我们提出了PDMX:这是一个大规模开源数据集,包含超过25万个来自乐谱分享论坛MuseScore的公共领域MusicXML乐谱,据我们所知,这是目前最大的可用无版权象征性音乐数据集。PDMX还包括丰富的标签和用户交互元数据,使我们能够高效地分析数据集并筛选出高质量的用户生成乐谱。借助我们的数据收集过程提供的额外元数据,我们进行了多轨音乐生成实验,评估PDMX不同代表性子集如何导致下游模型中的不同行为,以及如何利用用户评级统计作为数据质量的有效衡量标准。示例可在https://pnlong.github.io/PDMX.demo/找到。
隐式神经表示(INRs)利用神经网络提供连续且与分辨率无关的复杂信号表示,且参数数量较少。然而,现有的INR模型常常无法捕捉与每个任务特定的重要频率成分。为解决这一问题,本文提出了一种傅里叶科尔莫戈洛夫阿诺德网络(FKAN)用于INRs。所提出的FKAN利用可学习的激活函数,其在第一层中建模为傅里叶级数,以有效控制和学习任务特定的频率成分。此外,具有可学习傅里叶系数的激活函数提高了网络捕捉复杂模式和细节的能力,这对于高分辨率和高维数据是有益的。实验结果表明,我们提出的FKAN模型优于三种最先进的基准方案,并分别改善了图像表示任务的峰值信噪比(PSNR)和结构相似性指数测量(SSIM),以及3D占用体积表示任务的交并比(IoU)。