每日精选AI研究论文及翻译
最近的研究,比如BitNet,正在为一比特大型语言模型(LLMs)的新时代铺平道路。在这项工作中,我们介绍了一种1比特LLM变体,即BitNet b1.58,其中LLM的每个单个参数(或权重)都是三值{-1, 0, 1}。它与具有相同模型大小和训练标记的全精度(即FP16或BF16)Transformer LLM在困惑度和最终任务性能方面相匹配,同时在延迟、内存、吞吐量和能耗方面显着更具成本效益。更深远的是,1.58比特LLM定义了一种新的缩放规律和训练新一代既高性能又具有成本效益的LLMs的方法。此外,它还实现了一种新的计算范式,并为设计专门针对1比特LLMs优化的硬件打开了大门。
在这项工作中,我们致力于增强说唱视频生成中的逼真度和表现力,重点关注音频提示和面部运动之间的动态微妙关系。我们确定了传统技术的局限性,通常无法捕捉到完整的人类表情谱系和个体面部风格的独特性。为了解决这些问题,我们提出了EMO,这是一个新颖的框架,采用直接的音频到视频合成方法,绕过了中间的3D模型或面部标志的需要。我们的方法确保了帧之间的无缝过渡和视频中一致的身份保留,从而产生高度表现力和栩栩如生的动画。实验结果表明,EMO不仅能够生成令人信服的说唱视频,还能以各种风格生成歌唱视频,在表现力和逼真度方面明显优于现有的最先进方法。
Sora是一个文本到视频生成的AI模型,由OpenAI于2024年2月发布。该模型经过训练,能够根据文本指令生成逼真或想象的场景视频,并展现出模拟物理世界的潜力。本文基于公开的技术报告和逆向工程,全面审查了该模型的背景、相关技术、应用、尚存挑战以及文本到视频AI模型未来发展方向。我们首先追溯了Sora的发展历程,并研究了构建这个“世界模拟器”所使用的基础技术。然后,我们详细描述了Sora在从电影制作和教育到营销等多个行业中的应用和潜在影响。我们讨论了需要解决的主要挑战和限制,以便广泛部署Sora,例如确保视频生成的安全和公正性。最后,我们讨论了Sora和视频生成模型未来的发展,以及该领域的进步如何能够促进人工智能与人类之间新的互动方式,提升视频生成的生产力和创造力。
几十年来,人机交互基本上是手动的。即使在今天,几乎所有在计算机上进行的生产性工作都需要人类的每一步输入。自主虚拟代理标志着自动化许多这些琐碎任务的激动人心的一步。虚拟代理将赋予技术能力有限的用户利用计算机系统的全部可能性。它们还可以实现高效地简化许多计算机任务,从日历管理到复杂的旅行预订,减少人类干预。在本文中,我们介绍了OmniACT,这是一个首创的数据集和基准,用于评估代理生成可执行程序以完成计算机任务的能力。我们的范围超越了传统的网络自动化,涵盖了各种桌面应用程序。数据集包括基本任务,如“播放下一首歌曲”,以及更长期的任务,如“给John Doe发送一封电子邮件,提到见面的时间和地点”。具体来说,给定一对屏幕图像和一个视觉相关的自然语言任务,目标是生成一个能够完全执行任务的脚本。我们在我们的基准测试中运行了几个强大的基线语言模型代理。最强大的基线模型GPT-4在我们的基准测试中表现最佳。然而,它的性能水平仍然只达到了人类在生成能够完成任务的可执行脚本方面的15%的熟练水平,展示了我们的任务对于传统网络代理的挑战。我们的基准测试提供了一个平台,用于衡量和评估语言模型代理在自动化计算机任务方面的进展,并激励未来工作朝着构建桥接大型语言模型和计算机屏幕视觉基础的多模型的方向发展。
尽管大型语言模型(LLMs)通常采用微调来释放其在下游应用中的能力,但我们对不同微调方法的归纳偏差(尤其是尺度特性)的理解仍然有限。为了填补这一空白,我们进行了系统实验,研究不同尺度因素(包括LLM模型大小、预训练数据大小、新微调参数大小和微调数据大小)如何影响微调性能。我们考虑了两种微调类型--全模型微调(FMT)和参数高效微调(PET,包括提示微调和LoRA),并探讨它们在数据有限情况下的尺度行为,其中LLM模型大小远远超过微调数据大小。基于两组预训练的双语LLMs(从1B到16B)以及在双语机器翻译和多语言摘要基准测试上的实验,我们发现:1)LLM微调遵循一种基于乘法的幂律联合缩放规律,介于微调数据大小和其他尺度因素之间;2)LLM微调更多地受益于LLM模型尺度而不是预训练数据尺度,PET参数尺度通常无效;3)最佳微调方法高度依赖于任务和微调数据。我们希望我们的发现能够帮助理解、选择和发展LLM微调方法。
当输入标记数量超过预训练长度时,大型语言模型(LLMs)处理和生成连贯文本的能力明显减弱。考虑到使用更长序列对大规模模型进行微调的昂贵开销,我们提出了双块注意力(DCA),使Llama2 70B 能够支持超过100k标记的上下文窗口而无需持续训练。通过将长序列的注意力计算分解为基于块的模块,DCA 成功地捕捉了同一块内标记的相对位置信息(块内)和不同块之间的信息(块间),并与 Flash 注意力无缝集成。除了其令人印象深刻的外推能力外,DCA 在实际长上下文任务上实现了与或甚至优于微调模型相当的性能。与专有模型相比,我们的无需训练的70B模型达到了gpt-3.5-16k性能的94%,表明它是一个可行的开源替代方案。本研究使用的所有代码和数据均在 https://github.com/HKUNLP/ChunkLlama 上发布。
在以主题驱动的文本到图像(T2I)生成模型领域,最近的发展如DreamBooth和BLIP-Diffusion取得了令人印象深刻的成果,但由于它们对精细调整的需求和大量参数的要求而遇到了限制。虽然DreamBooth内的低秩适应(LoRA)模块提供了可训练参数的减少,但引入了对超参数的显著敏感性,导致在参数效率和T2I个性化图像合成质量之间需要权衡。为了解决这些限制,我们引入了\textit{DiffuseKronA},这是一种基于Kronecker乘积的新型适应模块,不仅将参数数量分别比LoRA-DreamBooth和原始DreamBooth减少了35\%和99.947\%,而且提高了图像合成的质量。关键是,DiffuseKronA缓解了超参数敏感性问题,能够在各种超参数范围内提供一致高质量的生成结果,从而减少了对大量精细调整的必要性。此外,更可控的分解使DiffuseKronA更具可解释性,甚至可以实现高达50\%的减少,并且结果与LoRA-Dreambooth相媲美。通过对各种复杂输入图像和文本提示进行评估,DiffuseKronA始终优于现有模型,生成质量更高、保真度更高、对象颜色分布更准确的多样化图像,同时保持了出色的参数效率,从而在T2I生成建模领域取得了重大进展。我们的项目页面包括代码链接和预训练检查点,可在https://diffusekrona.github.io/(https://diffusekrona.github.io/)上找到。
互联网上存在丰富的文本和视频数据,支持通过下一个标记或帧预测进行大规模的自监督学习。然而,它们并没有被充分利用:语言模型在现实世界中产生了重大影响,而视频生成在很大程度上仍然局限于媒体娱乐领域。然而,视频数据捕捉了关于物理世界的重要信息,这些信息很难用语言表达。为了弥补这一差距,我们讨论了将视频生成扩展到解决现实世界任务的一个被低估的机会。我们观察到,类似于语言,视频可以作为一个统一的接口,可以吸收互联网知识并表示各种任务。此外,我们展示了视频生成如何像语言模型一样,通过技术如上下文学习、规划和强化学习,可以作为规划器、代理、计算引擎和环境模拟器。我们确定了在机器人、自动驾驶和科学等领域的重大影响机会,这些领域得到了最近的研究支持,证明了视频生成中这些先进能力很可能在可预见的范围内实现。最后,我们确定了在视频生成中阻碍进展的关键挑战。解决这些挑战将使视频生成模型能够在更广泛的AI应用领域中展示出与语言模型相媲美的独特价值。
现有关于长期开放领域对话的研究侧重于评估模型响应,其上下文跨度不超过五个聊天会话。尽管长上下文大语言模型(LLMs)和检索增强生成(RAG)技术取得了进展,但它们在非常长期对话中的有效性尚未被探索。为了填补这一研究空白,我们引入了一个机器-人类流程,通过利用基于LLM的代理架构生成高质量、非常长期的对话,并将这些对话基于人物角色和时间事件图进行基础。此外,我们赋予每个代理能力来分享和对图像做出反应。生成的对话经人类注释员验证和编辑,以确保长期一致性和与事件图的基础联系。利用这一流程,我们收集了LoCoMo,一个非常长期对话的数据集,每个对话包含300轮,平均9K标记,长达35个会话。基于LoCoMo,我们提出了一个全面的评估基准,用于衡量模型中的长期记忆,包括问答、事件总结和多模态对话生成任务。我们的实验结果表明,LLMs在理解冗长对话和理解对话中的长期时间和因果动态方面存在挑战。采用长上下文LLMs或RAG等策略可以带来改进,但这些模型仍然远远落后于人类表现。
本研究探讨了改进语言模型(LMs)学习的一般原则,旨在减少实现卓越性能所需的训练步骤。具体而言,我们提出了一种优化LM学习的理论。我们首先提出了一个优化LM学习的目标,即通过在“LM训练作为无损压缩”的视角中最大化数据压缩比来实现。然后,我们推导出一个定理,命名为学习定律,揭示了在我们的目标下最佳学习过程中动态特性。该定理随后通过对线性分类和真实世界语言建模任务的实验进行验证。最后,我们经验证明,LMs的最佳学习基本上源自于改进LMs缩放定律中的系数,为设计实用的学习加速方法提供了巨大的希望和重要性。我们的代码可以在https://aka.ms/LearningLaw 找到。
最近开发的 Sora 模型[1] 在视频生成方面展现出卓越的能力,引发了关于其模拟真实世界现象能力的激烈讨论。尽管它越来越受欢迎,但缺乏已建立的指标来定量评估其与真实世界物理的符合度。在本文中,我们引入了一个新的基准,评估生成视频的质量是否遵循真实世界物理原理。我们采用一种方法,将生成的视频转换为 3D 模型,利用这样一个前提,即 3D 重建的准确性在很大程度上取决于视频质量。从 3D 重建的角度来看,我们使用构建的 3D 模型满足的几何约束的忠实度作为一种代理,来衡量生成的视频符合真实世界物理规则的程度。项目页面:https://sora-geometrical-consistency.github.io/
视频和音频内容创作是电影行业和专业用户的核心技术。最近,现有的基于扩散的方法分别处理视频和音频生成,这阻碍了技术从学术界向工业界的转移。在这项工作中,我们旨在填补这一空白,提出了一个经过精心设计的基于优化的框架,用于跨视听和联合视听生成。我们观察到现成视频或音频生成模型的强大生成能力。因此,我们提出通过将现有强大模型与共享潜在表示空间相连来弥合这一差距,而不是从头开始训练庞大模型。具体来说,我们提出了一个与预训练的ImageBind模型相结合的多模态潜在对齐器。我们的潜在对齐器与在推断时引导扩散去噪过程的分类器引导具有相似的核心。通过精心设计的优化策略和损失函数,我们展示了我们的方法在联合视频音频生成、视觉引导音频生成和音频引导视觉生成任务上的卓越性能。项目网站可在https://yzxing87.github.io/Seeing-and-Hearing/找到。
在这项工作中,我们分享了三个见解,以实现文本到图像生成模型的最新美学质量。我们专注于模型改进的三个关键方面:增强色彩和对比度,改善跨多个宽高比的生成,以及改善以人为中心的细节。首先,我们深入探讨了在训练扩散模型中噪声时间表的重要性,展示了它对现实感和视觉保真度的深远影响。其次,我们解决了在图像生成中适应各种宽高比的挑战,强调准备平衡的分桶数据集的重要性。最后,我们调查了将模型输出与人类偏好对齐的关键作用,确保生成的图像与人类感知期望 resonates。通过广泛的分析和实验,Playground v2.5 在各种条件和宽高比下展示了最新美学质量的性能,优于诸如 SDXL 和 Playground v2 等广泛使用的开源模型,以及 DALLE 3 和 Midjourney v5.2 等闭源商业系统。我们的模型是开源的,我们希望 Playground v2.5 的发展为旨在提升基于扩散的图像生成模型的美学质量的研究人员提供有价值的指导。
我们介绍了一种生成三维场景并将其解缠为各个组件对象的方法。这种解缠是无监督的,仅依赖于一个大型预训练的文本到图像模型的知识。我们的关键洞察是,通过重新空间排列时仍能产生同一场景的有效配置的三维场景部分可以发现对象。具体来说,我们的方法从头开始联合优化多个NeRF模型 - 每个模型代表一个对象 - 以及一组将这些对象合成场景的布局。然后,我们鼓励这些合成场景根据图像生成器处于分布中。我们展示了,尽管方法简单,但成功生成了分解为各个对象的三维场景,为文本到三维内容创作带来了新的能力。有关结果和交互式演示,请访问我们的项目页面:https://dave.ml/layoutlearning/
现有基于NeRF的大场景重建方法通常在视觉质量和渲染速度方面存在局限性。虽然最近的3D高斯光斑方法在小规模和以物体为中心的场景上表现良好,但将其扩展到大场景会面临由于有限的视频内存、长时间优化和明显外观变化而带来的挑战。为了解决这些问题,我们提出了VastGaussian,这是基于3D高斯光斑的大场景高质量重建和实时渲染的首个方法。我们提出了一种渐进式分区策略,将大场景划分为多个单元,其中训练相机和点云根据空间感知可见性标准进行适当分布。这些单元在并行优化后合并为完整场景。我们还在优化过程中引入了解耦外观建模,以减少渲染图像中的外观变化。我们的方法优于现有基于NeRF的方法,并在多个大场景数据集上取得了最先进的结果,实现了快速优化和高保真实时渲染。