每日精选AI研究论文及翻译
大型语言模型(LLMs)和指导调整的兴起导致了当前指导调整的大型语言和视觉模型(LLVMs)的趋势。这一趋势要么精心策划大量针对特定目标量身定制的指导调整数据集,要么扩大LLVMs以处理大量的视觉语言(VL)数据。然而,当前的LLVMs忽视了专门的计算机视觉(CV)模型在视觉感知任务(如分割、检测、场景图生成(SGG)和光学字符识别(OCR))中提供的详细和全面的真实世界场景理解。相反,现有的LLVMs主要依赖于它们的LLM骨干的大容量和新兴能力。因此,我们提出了一种新的LLVM,即全智能混合(MoAI),它利用从外部分割、检测、SGG和OCR模型的输出获得的辅助视觉信息。MoAI通过两个新引入的模块运行:MoAI-Compressor和MoAI-Mixer。在将外部CV模型的输出转化为语言后,MoAI-Compressor对其进行对齐和压缩,以有效利用相关的辅助视觉信息用于VL任务。MoAI-Mixer然后通过利用专家混合概念将三种智能(1)视觉特征,(2)来自外部CV模型的辅助特征和(3)语言特征混合在一起。通过这种整合,MoAI在许多零样本VL任务中显着优于开源和闭源LLVMs,特别是那些涉及对象存在、位置、关系和OCR等真实世界场景理解的任务,而无需增加模型大小或策划额外的视觉指导调整数据集。
我们介绍了Chronos,这是一个简单而有效的预训练概率时间序列模型框架。Chronos使用缩放和量化将时间序列值标记为固定词汇,并通过交叉熵损失在这些标记化的时间序列上训练现有的基于Transformer的语言模型架构。我们基于T5系列(参数范围从20M到710M)在大量公开可用数据集上预训练了Chronos模型,同时通过高斯过程生成了一个合成数据集以提高泛化能力。在包含42个数据集的全面基准测试中,涵盖了传统的本地模型和深度学习方法,我们展示了Chronos模型:(a)在训练语料库中的数据集上明显优于其他方法;以及(b)在新数据集上具有可比和偶尔优越的零样本性能,相对于专门针对它们进行训练的方法。我们的结果表明,Chronos模型可以利用来自不同领域的时间序列数据,提高对未见预测任务的零样本准确性,将预训练模型定位为极大简化预测流程的可行工具。
我们研究了训练大型语言模型(LLMs)在多个专业领域具备能力的高效方法,例如编码、数学推理和世界知识。我们的方法名为Branch-Train-MiX(BTX),从一个种子模型开始,通过尴尬并行训练专家,具有高吞吐量和降低通信成本。在单独训练专家后,BTX将它们的前向参数作为专家汇集在混合专家(MoE)层中,并平均剩余参数,然后进行MoE微调阶段以学习标记级别的路由。BTX推广了两种特殊情况,即Branch-Train-Merge方法,它没有MoE微调阶段来学习路由,以及稀疏升级,它省略了异步训练专家的阶段。与其他方法相比,BTX实现了最佳的准确性和效率的权衡。
在视觉-语言模型(VLMs)的发展中,高质量的人工标注图像描述数据集的创建是一个重要的瓶颈。我们提出了一种新颖的方法,利用大型语言模型(LLMs)和图像生成模型的优势,为高效有效的VLM训练创建合成图像-文本对。我们的方法利用预训练的文本到图像模型,从由LLM生成的描述开始合成图像嵌入。这些合成对被用来训练VLM。大量实验证明,使用合成数据训练的VLM在图像描述方面表现出与仅使用人工标注数据训练的模型相媲美的性能,同时所需数据量仅为后者的一小部分。特别地,通过合成数据集的增强,我们超越基准线17%。此外,我们展示在图像嵌入空间中进行合成比在像素空间中快25%。这项研究介绍了一种有前景的技术,用于生成大规模、可定制的图像数据集,提高了VLM的性能,并在各个领域中具有更广泛的适用性,同时提高了数据效率和资源利用率。
在生成计算机视觉中,人类动作生成是一个重要的研究领域,而实现长序列和高效的动作生成仍然具有挑战性。最近在状态空间模型(SSMs)方面的进展,尤其是Mamba,展示了在长序列建模方面具有很大潜力的硬件感知设计,这似乎是构建动作生成模型的一个有前途的方向。然而,将SSMs调整到动作生成面临困难,因为缺乏专门设计的架构来建模动作序列。为了解决这些挑战,我们提出了Motion Mamba,这是一种简单高效的方法,提出了利用SSMs的开创性动作生成模型。具体来说,我们设计了一个层次时间Mamba(HTM)块,通过在对称U-Net架构中集成不同数量的孤立SSM模块来处理时间数据,旨在保持帧间动作一致性。我们还设计了一个双向空间Mamba(BSM)块,用于双向处理潜在姿势,以增强在时间帧内的准确动作生成。我们提出的方法在HumanML3D和KIT-ML数据集上相较于先前最佳的基于扩散的方法,实现了高达50%的FID改进和高达4倍的速度提升,展示了高质量长序列动作建模和实时人类动作生成的强大能力。请参阅项目网站 https://steve-zeyu-zhang.github.io/MotionMamba/
我们介绍了DragAnything,它利用实体表示来实现可控视频生成中任何对象的运动控制。与现有的运动控制方法相比,DragAnything提供了几个优势。首先,基于轨迹的方法对用户更友好,因为获取其他引导信号(例如,蒙版、深度图)需要耗费大量人力。用户只需在交互过程中绘制一条线(轨迹)。其次,我们的实体表示作为一个开放域嵌入,能够表示任何对象,实现对各种实体(包括背景)的运动控制。最后,我们的实体表示允许同时对多个对象进行同时且独立的运动控制。大量实验证明,我们的DragAnything在FVD、FID和用户研究方面实现了最先进的性能,特别是在对象运动控制方面,我们的方法在人类投票中超过了以前的方法(例如DragNUWA)26%。
我们介绍了 FAX,这是一个基于 JAX 的库,旨在支持数据中心和跨设备应用中的大规模分布式和联邦计算。FAX 利用 JAX 的分片机制,实现对 TPU 和最先进的 JAX 运行时(包括 Pathways)的本地定位。FAX 将联邦计算的构建模块作为 JAX 中的原语进行嵌入。这带来了三个关键好处。首先,FAX 计算可以转换为 XLA HLO。其次,FAX 提供了联邦自动微分的完整实现,极大简化了联邦计算的表达。最后,FAX 计算可以映射到现有的生产跨设备联邦计算系统。我们展示了 FAX 在数据中心中提供了一个易于编程、高性能和可扩展的联邦计算框架。FAX 可在 https://github.com/google-research/google-research/tree/master/fax 获取。
移动操作中的一个悬而未决的问题是如何以统一的方式表示物体和场景,以便机器人既可以用于在环境中导航又可以用于操作物体。后者需要捕捉复杂的几何形状,同时理解细粒度的语义,而前者则涉及捕捉与广阔物理尺度相关的复杂性。在这项工作中,我们提出了GeFF(通用特征场),这是一个场景级通用的神经特征场,可作为导航和操作的统一表示,在实时性能方面表现出色。为此,我们将生成新视图合成视为一个预训练任务,然后通过CLIP特征蒸馏将生成的丰富场景先验与自然语言进行对齐。我们通过在配备有操作器的四足机器人上部署GeFF来展示这种方法的有效性。我们评估了GeFF在动态场景中进行开放词汇移动操作时对开放集物体的泛化能力以及运行时间。