每日精选AI研究论文及翻译
大型视觉语言模型(VLMs)在多模态感知和推理方面取得了重大进展。此外,当无缝集成到具有实体的代理程序中时,它标志着朝着创建能够制定计划并精确执行命令的自主和具有上下文感知能力的系统迈出了关键一步。在本文中,我们介绍了章鱼(Octopus),这是一种新颖的VLM,旨在熟练解读代理的视觉和文本任务目标,并制定复杂的动作序列并生成可执行代码。我们的设计使代理能够熟练处理广泛的任务范围,从模拟器中的日常琐事到复杂视频游戏中的复杂交互。章鱼通过利用GPT-4来控制一个探索性代理进行训练,即在我们的实验环境OctoVerse中生成训练数据,即动作蓝图和相应的可执行代码。我们还收集反馈,以允许采用强化学习与环境反馈(RLEF)的增强训练方案。通过一系列实验,我们阐明了章鱼的功能,并提出了引人注目的结果,提出的RLEF能够改进代理的决策能力。通过开源我们的模型架构、模拟器和数据集,我们希望激发进一步的创新,并在更广泛的具有实体AI社区中促进协作应用。
我们介绍了Lemur和Lemur-Chat,这是专为自然语言和编码能力优化的开放获取语言模型,旨在成为多功能语言代理的基础。从语言聊天模型发展到功能性语言代理需要模型不仅精通人类交互、推理和规划,还要确保在相关环境中具有基础。这要求模型在语言和编码能力之间取得和谐的融合。Lemur和Lemur-Chat被提出来解决这一必要性,展示了在两个领域均衡熟练的能力,与现有倾向于专门化的开源模型不同。通过在代码密集语料库上进行细致的预训练,并在文本和代码数据上进行指导微调,我们的模型在各种文本和编码基准测试中取得了业界领先的平均性能,超越了现有开源模型。全面的实验展示了Lemur相对于现有开源模型的优越性,以及其在涉及人类交流、工具使用和在完全可观察和部分可观察环境下的互动的各种代理任务中的熟练程度。自然语言和编程语言之间的协调使得Lemur-Chat在代理能力上显著缩小了与专有模型之间的差距,为开发擅长推理、规划和在环境中无缝操作的先进开源代理提供了关键见解。https://github.com/OpenLemur/Lemur
我们介绍了“从想法到图像”系统,该系统利用GPT-4V(ision)进行多模态迭代自我完善,实现自动图像设计和生成。人类可以通过迭代探索快速识别不同文本到图像(T2I)模型的特征。这使他们能够高效地将他们的高层生成想法转化为有效的T2I提示,从而产生良好的图像。我们研究了基于大型多模态模型(LMMs)的系统是否能够发展类似的多模态自我完善能力,从而通过自我完善尝试来探索未知模型或环境。Idea2Img循环生成修订的T2I提示以合成草图图像,并提供定向反馈以进行提示修订,均取决于其对所探测的T2I模型特征的记忆。迭代自我完善使Idea2Img比普通T2I模型具有各种优势。值得注意的是,Idea2Img可以处理交错的图像文本序列输入想法,遵循带有设计说明的想法,并生成具有更好语义和视觉质量的图像。用户偏好研究验证了多模态迭代自我完善在自动图像设计和生成中的有效性。
近年来,从文本提示生成3D资产展现出令人印象深刻的结果。无论是2D还是3D扩散模型都能够基于提示生成体面的3D物体。3D扩散模型具有良好的3D一致性,但由于可训练的3D数据昂贵且难以获取,其质量和泛化能力有限。2D扩散模型具有强大的泛化和精细生成能力,但难以保证3D一致性。本文试图通过最近的显式和高效的3D高斯飘带表示法,将两种类型的扩散模型的能力结合起来。提出了一种快速的3D生成框架,命名为\name,其中3D扩散模型为初始化提供点云先验,而2D扩散模型丰富了几何和外观。引入了噪声点生长和颜色扰动操作以增强初始化的高斯函数。我们的\name 可以在一个GPU上在25分钟内生成高质量的3D实例,比先前的方法快得多,同时生成的实例可以直接实时渲染。演示和代码可在https://taoranyi.com/gaussiandreamer/找到。
尽管大规模文本到图像模型取得了显著进展,实现超逼真人类图像生成仍然是一项令人向往但尚未解决的任务。现有模型如稳定扩散和DALL-E 2 往往会生成具有不连贯部分或不自然姿势的人类图像。为了解决这些挑战,我们的关键洞察是人类图像在多个粒度上固有地具有结构性,从粗粒度的身体骨架到细粒度的空间几何。因此,在一个模型中捕捉显式外观与潜在结构之间的相关性对于生成连贯自然的人类图像至关重要。为此,我们提出了一个统一框架,HyperHuman,用于生成高逼真度和多样布局的野外人类图像。具体来说,1)我们首先构建了一个大规模以人类为中心的数据集,名为HumanVerse,其中包含340M张图像,具有全面的注释,如人体姿势、深度和表面法线。2)接下来,我们提出了一个潜在结构扩散模型,该模型同时去噪深度和表面法线以及合成的RGB图像。我们的模型强化了图像外观、空间关系和几何在一个统一网络中的联合学习,在模型中的每个分支相互补充,既具有结构意识又具有纹理丰富性。3)最后,为了进一步提升视觉质量,我们提出了一个结构引导的精化器,用于组合预测条件,以更详细地生成更高分辨率的图像。大量实验证明,我们的框架实现了最先进的性能,在多种场景下生成超逼真的人类图像。项目页面:https://snap-research.github.io/HyperHuman/
大规模预训练扩散模型在各种视频生成中展现出卓越的能力。给定一组具有相同运动概念的视频剪辑,运动定制的任务是调整现有的文本到视频扩散模型,以生成具有这种运动的视频。例如,生成一段视频,其中汽车按照规定的方式移动,在特定的摄像机运动下制作电影,或者展示一只熊如何举重以激发创作者。已经开发了用于定制外观(如主题或风格)的适应方法,但对于运动尚未探索。可以直接扩展主流适应方法以进行运动定制,包括完整模型调整、额外层的参数高效调整以及低秩适应(LoRAs)。然而,这些方法学习的运动概念通常与训练视频中的有限外观相耦合,使得将定制的运动推广到其他外观变得困难。为了克服这一挑战,我们提出了MotionDirector,采用双通道LoRAs架构来解耦外观和运动的学习。此外,我们设计了一种新颖的外观去偏差时间损失,以减轻外观对时间训练目标的影响。实验结果表明,所提出的方法可以为定制的运动生成具有多样外观的视频。我们的方法还支持各种下游应用,例如混合不同视频的外观和运动,以及为单个图像赋予定制运动的动画化。我们将发布代码和模型权重。