每日精选AI研究论文及翻译
我们着手处理条件音乐生成任务。我们引入了MusicGen,这是一个单一的语言模型(LM),它可以处理几个流的离散压缩音乐表示,即标记。与先前的工作不同,MusicGen由一个单阶段的Transformer LM和高效的标记交错模式组成,消除了级联多个模型的需要,例如分层或上采样。遵循这种方法,我们展示了MusicGen如何能够生成高质量的样本,同时可以在文本描述或旋律特征的条件下进行控制,从而更好地控制生成的输出。我们进行了广泛的实证评估,考虑了自动化和人类研究,展示了所提出的方法在标准文本到音乐基准上优于评估基线。通过消融研究,我们阐明了构成MusicGen的每个组件的重要性。音乐样本、代码和模型可在https://github.com/facebookresearch/audiocraft找到。
高质量的指导和回应对于大型语言模型在交互式自然语言任务上的零-shot性能至关重要。对于涉及复杂视觉场景的交互式视觉-语言任务,大量多样化和创意丰富的指导-回应对对于调整视觉-语言模型(VLMs)至关重要。然而,目前关于视觉-语言指导-回应对在数量、多样性和创意方面的可用性仍然有限,这给交互式VLMs的泛化带来挑战。在这里,我们提出了MultI-Modal In-Context Instruction Tuning(MIMIC-IT),这是一个包含280万个多模态指导-回应对的数据集,其中包括来自图像和视频的220万个独特指导。每对指导-回应都附带多模态上下文信息,形成旨在增强VLMs在感知、推理和规划方面的对话上下文。指导-回应收集过程被称为Syphus,通过将人类专业知识与GPT的能力相结合,使用自动注释流水线进行扩展。利用MIMIC-IT数据集,我们训练了一个名为Otter的大型VLM。基于在视觉-语言基准上进行的广泛评估,发现Otter在多模态感知、推理和上下文学习方面表现出卓越的熟练度。人类评估显示它能有效地与用户意图对齐。我们发布了MIMIC-IT数据集、指导-回应收集流水线、基准测试和Otter模型。
我们提出了一种新的测试时间优化方法,用于从视频序列中估计密集且长距离的运动。先前的光流或粒子视频跟踪算法通常在有限的时间窗口内运行,难以跟踪遮挡部分并保持估计运动轨迹的全局一致性。我们提出了一种完整且全局一致的运动表示,称为全景运动(OmniMotion),允许准确地对视频中每个像素的全长运动进行估计。全景运动使用准三维规范体表示视频,并通过局部空间和规范空间之间的双射执行逐像素跟踪。这种表示使我们能够确保全局一致性,跟踪遮挡部分,并对相机和物体运动的任何组合进行建模。在TAP-Vid基准和真实世界素材上进行的广泛评估显示,我们的方法在定量和定性上均大幅优于先前的最新方法。有关更多结果,请访问我们的项目页面:http://omnimotion.github.io/
由大型语言模型(LLMs)驱动的对话代理为与视觉数据交互提供了一种新方式。虽然已经尝试过基于图像的对话模型,但本研究致力于介绍一种新颖的基于视频的对话模型,即Video-ChatGPT。这是一种多模态模型,将经过视频调整的视觉编码器与语言模型相结合。该模型能够理解并生成关于视频的类人对话。我们引入了一个新的数据集,包含10万个视频-指令对,用于训练Video-ChatGPT,这些数据通过手动和半自动化流程获取,易于扩展且对标签噪声具有鲁棒性。我们还为基于视频的对话模型开发了一个定量评估框架,以客观分析所提出模型的优势和劣势。我们的代码、模型、指令集和演示可在https://github.com/mbzuai-oryx/Video-ChatGPT 上获取。
预训练图像扩散模型的显著能力不仅被用于生成固定尺寸的图像,还被用于创建全景图。然而,简单地拼接多个图像通常会导致可见的接缝。最近的技术尝试通过在多个窗口中执行联合扩散并在重叠区域中平均潜在特征来解决这个问题。然而,这些侧重于生成无缝蒙太奇的方法通常通过在单个图像中混合不同场景而产生不连贯的输出。为了克服这一局限性,我们提出了SyncDiffusion,这是一个通过从感知相似性损失进行梯度下降来同步多个扩散的即插即用模块。具体来说,我们使用每个去噪步骤中预测的去噪图像计算感知损失的梯度,为实现连贯蒙太奇提供有意义的指导。我们的实验结果表明,与先前的方法相比,我们的方法产生了明显更连贯的输出(在用户研究中为66.35% vs. 33.65%),同时仍保持了忠实度(由GIQA评估)和与输入提示的兼容性(由CLIP分数测量)。
本文提出了Matting Anything Model(MAM),这是一个高效且多功能的框架,用于估计图像中任何实例的alpha抠图,可通过灵活和交互式的视觉或语言用户提示进行引导。MAM相比先前的专门图像抠图网络具有几个重要优势:(i)MAM能够处理各种类型的图像抠图,包括语义抠图、实例抠图和指代图像抠图,仅需一个模型;(ii)MAM利用了Segment Anything Model(SAM)的特征图,并采用轻量级的Mask-to-Matte(M2M)模块通过迭代细化来预测alpha抠图,仅有270万可训练参数;(iii)通过整合SAM,MAM简化了交互式使用图像抠图时用户介入的需求,从trimap到框、点或文本提示。我们在各种图像抠图基准上评估了MAM的性能,实验结果表明,MAM在每个基准上的不同指标下均达到了与最先进的专门图像抠图模型相媲美的性能。总体而言,MAM表现出卓越的泛化能力,能够有效处理各种图像抠图任务,且参数更少,是统一图像抠图的实用解决方案。我们的代码和模型已在https://github.com/SHI-Labs/Matting-Anything 开源。
在当前最先进的神经架构搜索(NAS)框架中,权重共享的超网络已经成为性能估计的重要组成部分。虽然超网络可以直接生成不同的子网络而无需重新训练,但由于权重共享,这些子网络的质量无法保证。在诸如机器翻译和预训练语言建模等NLP任务中,我们观察到在相同的模型架构下,超网络和从头开始训练之间存在很大的性能差距。因此,超网络不能直接使用,需要在找到最佳架构后进行重新训练。 在这项工作中,我们提出了混合超网络,这是一种广义的超网络形式,其中采用了专家混合(MoE)来增强超网络模型的表达能力,而训练开销可以忽略不计。通过这种方式,不同的子网络不直接共享模型权重,而是通过基于架构的路由机制进行共享。因此,不同子网络的模型权重针对其特定架构进行定制,并且权重生成是通过梯度下降学习的。与现有的用于NLP的权重共享超网络相比,我们的方法可以最小化重新训练时间,极大地提高训练效率。此外,所提出的方法在NAS中实现了建立快速机器翻译模型的最先进性能,在延迟-BLEU权衡方面优于HAT,这是机器翻译的最先进NAS。我们还在构建内存高效的通用任务BERT模型的NAS中实现了最先进的性能,在各种模型大小上优于NAS-BERT和AutoDistil。
从单个图像估计物体的深度是许多视觉、机器人和图形应用中的一项重要任务。然而,当前的方法通常无法为多样化场景中的物体产生准确的深度。在这项工作中,我们提出了一种简单而有效的背景提示策略,通过学习背景来调整输入的物体图像。我们仅使用小规模合成物体数据集来学习背景提示。为了推断真实图像上的物体深度,我们将分割的物体放入学习的背景提示中,并运行现成的深度网络。背景提示有助于深度网络专注于前景物体,因为它们对背景变化具有不变性。此外,背景提示减小了合成和真实物体图像之间的域差距,比简单的微调实现了更好的从模拟到真实的泛化效果。在多个合成和真实数据集上的结果表明,对于各种现有深度网络,真实物体深度都得到了一致的改进。代码和优化的背景提示可在以下网址找到:https://mbaradad.github.io/depth_prompt。
受大规模配对文本-图像数据集训练的可扩展扩散模型驱动,文本到图像合成方法展现出引人注目的结果。然而,当文本提示涉及多个对象、属性和空间构图时,这些模型仍然无法精确地遵循文本提示。本文中,我们在扩散模型的交叉注意力和自注意力层中确定潜在原因。我们提出了两种新的损失函数,在采样过程中根据给定布局重新聚焦注意力图。我们在DrawBench和HRS基准上进行了全面实验,使用由大型语言模型合成的布局,结果显示我们提出的损失函数可以轻松有效地集成到现有的文本到图像方法中,并持续改善生成图像与文本提示之间的对齐。
文本到图像生成模型已经实现了跨不同领域的高分辨率图像合成,但需要用户指定他们希望生成的内容。在本文中,我们考虑了逆问题 -- 给定一组不同的图像,我们能否发现代表每个图像的生成概念?我们提出了一种无监督方法,从图像集合中发现生成概念,将绘画中的不同艺术风格、物体和照明与厨房场景中的内容解开,并在给定ImageNet图像的情况下发现图像类别。我们展示了这些生成概念如何准确地表现图像的内容,如何重新组合和组合以生成新的艺术和混合图像,并进一步用作下游分类任务的表示。
我们介绍了BlenderBot 3x,这是对会话模型BlenderBot 3的更新,现在使用了参与系统的用户的有机对话和反馈数据进行训练,以提高其技能和安全性。我们公开发布了参与者去标识化互动数据,供研究社区使用,以推动进一步的进展。使用有机数据训练模型具有挑战性,因为与人们在现实场景中的互动既包括高质量的对话和反馈,也包括对抗性和有毒行为。我们研究了一些技术,使模型能够从有益的教师那里学习,同时避免从试图欺骗模型产生无益或有毒回应的人那里学习。BlenderBot 3x在对话中更受青睐,同时在挑战性情境中显示出更安全的回应,相较于BlenderBot 3。虽然我们目前的模型仍然远非完美,但我们相信通过继续使用本研究中探讨的技术,可以进一步改进。
视觉特定概念,如“区域”,在将通用机器学习框架扩展到诸如目标检测之类的任务中发挥了关键作用。鉴于基于区域的检测器在监督学习中取得的成功以及用于对比学习的图像内方法的进展,我们探索了将区域用于重构预训练的可能性。从掩膜自编码(MAE)作为基线和灵感出发,我们提出了一项针对解决图像和区域之间一对多映射的并行预训练任务。由于这些区域可以以无监督方式生成,我们的方法(R-MAE)继承了MAE的广泛适用性,同时更具“区域意识”。在开发R-MAE过程中进行了彻底分析,并最终确定了一种既有效又高效的变体(比MAE多出1.3%的开销)。此外,当推广到各种预训练数据和下游检测和分割基准时,它显示出一致的定量改进。最后,我们提供了大量的定性可视化来增强对R-MAE行为和潜力的理解。代码将在 https://github.com/facebookresearch/r-mae 上提供。
阻碍 NeRF 模型广泛应用的一个关键障碍是它们对准确相机姿势的依赖。因此,人们越来越感兴趣将 NeRF 模型扩展到联合优化相机姿势和场景表示,这为通常使用已知失败模式的现成 SfM 管道提供了另一种选择。现有的未定位 NeRF 方法在有限的假设下运行,例如先验姿势分布或粗略姿势初始化,使它们在一般设置下效果较差。在这项工作中,我们提出了一种新颖的方法,LU-NeRF,它在对姿势配置放宽的情况下联合估计相机姿势和神经辐射场。我们的方法以局部到全局的方式运作,首先在数据的局部子集上进行优化,称为小场景。LU-NeRF 为这一具有挑战性的少样本任务估计局部姿势和几何。通过稳健的姿势同步步骤,将小场景姿势带入全局参考框架,最终可以执行姿势和场景的全局优化。我们展示了我们的 LU-NeRF 管道优于以往的未定位 NeRF 尝试,而无需对姿势先验进行限制性假设。这使我们能够在一般的 SE(3) 姿势设置下运行,而不像基线。我们的结果还表明,我们的模型可以作为基于特征的 SfM 管道的补充,因为它在低纹理和低分辨率图像上与 COLMAP 相比表现出色。
我们提出了一个框架,将视觉问答问题表述为模块化代码生成。与先前关于视觉问答模块化方法的工作相比,我们的方法无需额外训练,依赖于预训练的语言模型(LMs)、在图像标题对上预训练的视觉模型,以及用于上下文学习的五十个VQA示例。生成的Python程序使用算术和条件逻辑调用和组合视觉模型的输出。与不使用代码生成的少样本基线相比,我们的方法在COVR数据集上将准确率提高至少3%,在GQA数据集上提高约2%。
本文讨论了与视频Transformer相关的大量训练时间和内存消耗所带来的挑战,重点关注ViViT(Video Vision Transformer)模型,特别是作为动作识别任务基线的Factorised Encoder版本。分解编码器变体采用了许多最先进方法中采用的后融合方法。尽管在ViViT的不同变体中,该变体以其有利的速度/准确性权衡脱颖而出,但其相当大的训练时间和内存需求仍然构成了一个重要的准入障碍。我们的方法旨在降低这一障碍,其基础是在训练过程中冻结空间Transformer的概念。如果简单地这样做,将导致模型准确性降低。但我们展示了通过(1)适当初始化时间Transformer(负责处理时间信息的模块)(2)引入连接冻结空间表示(一个专门关注输入图像区域的模块)与时间Transformer的紧凑适配器模型,我们可以享受冻结空间Transformer的好处而不牺牲准确性。通过对6个基准测试的广泛实验,我们展示了我们提出的训练策略显著降低了训练成本(约50%)和内存消耗,同时与基线模型相比,保持或略微提高了高达1.79%的性能。我们的方法还解锁了利用更大的图像Transformer模型作为我们的空间Transformer,并在相同内存消耗下访问更多帧的能力。
球形卷积神经网络将卷积神经网络推广到球面上的函数,通过使用球形卷积作为主要线性操作。计算球形卷积最准确和高效的方法是在频谱域中(通过卷积定理),但仍然比通常的平面卷积更昂贵。因此,迄今为止,球形卷积神经网络的应用仅限于可以用较低模型容量解决的小问题。在这项工作中,我们展示了如何将球形卷积神经网络扩展到规模更大的问题。为实现这一目标,我们进行了关键改进,包括常见模型组件的新变体、实现核心操作以利用硬件加速器特性,以及利用我们模型特性的特定应用输入表示。实验表明,我们的更大规模球形卷积神经网络在QM9分子基准的多个目标上达到了最先进水平,该基准以前主要由等变图神经网络主导,并在多个天气预测任务上取得了竞争性表现。我们的代码可在https://github.com/google-research/spherical-cnn 上找到。