每日精选AI研究论文及翻译
我们介绍 Lumiere -- 一种文本到视频扩散模型,旨在合成展现真实、多样和连贯运动的视频 -- 这是视频合成中的一个关键挑战。为此,我们引入了一个时空 U-Net 架构,通过模型中的单次传递一次性生成整个视频的整个时间段。这与现有的视频模型形成对比,后者合成远距离关键帧,然后进行时间超分辨率 -- 这种方法本质上使全局时间一致性难以实现。通过部署空间和(重要的)时间下采样和上采样,并利用预训练的文本到图像扩散模型,我们的模型学会直接生成全帧率、低分辨率视频,通过在多个时空尺度上处理。我们展示了最先进的文本到视频生成结果,并表明我们的设计轻松支持各种内容创建任务和视频编辑应用,包括图像到视频、视频修补和风格化生成。
在2023年,AI社区中流行着玩大型视觉语言模型(LVLMs)。然而,流行的LVLMs具有相对较多的参数(超过7B),这使得在消费级GPU上训练和部署变得困难,让许多资源有限的研究人员望而却步。想象一下,在一张老旧的GTX1080ti(我们唯一的显卡)上体验当前LVLMs的所有功能会是多么酷。因此,我们在本报告中介绍了Vary-toy,这是一个小型Vary,以Qwen-1.8B作为基础的“大”语言模型。在Vary-toy中,我们引入了一个改进的视觉词汇表,使得该模型不仅具备Vary的所有特征,还能获得更多的通用性。具体来说,在生成视觉词汇表的过程中,我们用目标检测驱动的正样本数据替换自然图像的负样本,更充分地利用了词汇网络的容量,使其能够高效地编码与自然对象相对应的视觉信息。在实验中,Vary-toy在DocVQA上可以达到65.6%的ANLS,ChartQA上的准确率为59.1%,RefCOCO上的准确率为88.1%,MMVet上为29%。代码将在主页上公开提供。
融合语言、视觉以及最近行动的基础模型已经彻底改变了利用互联网规模数据进行有用任务推理的能力。然而,训练具身体基础模型的一个关键挑战是缺乏基于物理世界的数据。本文提出了AutoRT,这是一个利用现有基础模型来扩大操作机器人在完全未知场景中部署的系统,且只需最少人类监督。AutoRT利用视觉语言模型(VLMs)进行场景理解和基础,进一步利用大型语言模型(LLMs)提出多样化和新颖的指令,供一群机器人执行。通过利用基础模型的知识指导数据收集,AutoRT能够有效推理自主权权衡和安全性,同时大幅扩大机器人学习的数据收集。我们展示了AutoRT向超过20台机器人提出指令,跨多栋建筑收集了77k个真实机器人情节,通过远程操作和自主机器人策略。我们通过实验证明,AutoRT收集的“野外”数据显著更加多样化,而AutoRT使用LLMs允许机器人按照人类偏好执行指令的数据收集。
大型语言模型(LLMs)通常在推理过程中采用自回归生成,导致高内存带宽需求,从而延长延迟时间。为了减轻这种低效率,我们提出了Lossless Acceleration的双向调整(BiTA),这是一种创新方法,通过简化的半自回归生成和初步验证来加快LLMs。受提示调整概念启发,我们采用一种称为双向调整的参数高效设计,以实现半自回归生成的能力。利用高效的基于树的解码,模型同时进行初步候选生成和验证,确保在贪婪采样下输出与其自回归对应物相同。BiTA作为一个轻量级的插件模块,可以无缝地提高现有LLMs的推理效率,而无需额外的辅助模型或产生显著的额外内存成本。应用所提出的BiTA,LLaMA-2-70B-Chat在MT-Bench基准测试中实现了2.7倍的加速。大量实验证实我们的方法超越了最先进的加速技术。
我们提出了GALA,这是一个框架,它以单层穿着的3D人体网格为输入,并将其分解为完整的多层3D资产。然后可以将输出与其他资产结合,创建具有任何姿势的新颖穿着的人类化身。现有的重建方法通常将穿着的人类视为单层几何体,并忽视了具有发型、服装和配饰的人类固有的组合性,从而限制了网格在下游应用中的效用。将单层网格分解为独立层是一项具有挑战性的任务,因为它需要为严重遮挡区域合成合理的几何体和纹理。此外,即使成功分解,网格在姿势和体型方面也没有被规范化,无法与新颖身份和姿势进行连贯组合。为了解决这些挑战,我们建议利用预训练的2D扩散模型作为人类和其他资产的几何和外观先验的通用知识。我们首先使用从多视角2D分割中提取的3D表面分割来分离输入网格。然后,我们使用一种新颖的姿势引导的得分蒸馏采样(SDS)损失,在姿势和规范空间中合成不同层的缺失几何。一旦我们完成了修补高保真度的3D几何,我们还将同样的SDS损失应用于其纹理,以获得包括最初被遮挡区域在内的完整外观。通过一系列分解步骤,我们在共享的规范空间中获得了多层3D资产,这些资产在姿势和人体形状方面被规范化,从而支持轻松地将其组合到新的身份和重新动画化的新姿势。我们的实验表明,与现有解决方案相比,我们的方法在分解、规范化和组合任务中的有效性。
在大模型时代,解码的自回归特性常常导致延迟成为一个重要瓶颈。我们提出了一种非自回归的LM融合ASR系统,有效地利用了加速硬件的并行化能力。我们的方法将通用语音模型(USM)和PaLM 2语言模型以每段评分模式相结合,在FLEURS和YouTube字幕中实现了所有语言的平均相对WER改进,分别为10.8%和3.6%。此外,我们的全面消融研究分析了关键参数,如LLM大小、上下文长度、词汇量、融合方法等。例如,我们探讨了LLM大小从128M到340B参数对ASR性能的影响。这项研究为影响实用大规模LM融合语音识别系统有效性的因素提供了宝贵的见解。