每日精选AI研究论文及翻译
我们提出了第一个大型重建模型(LRM),可以在仅5秒内从单个输入图像预测物体的3D模型。与许多先前的方法不同,这些方法通常在小规模数据集(如ShapeNet)上以特定类别的方式进行训练,LRM采用了一个高度可扩展的基于Transformer的架构,具有5亿个可学习参数,可以直接从输入图像预测神经辐射场(NeRF)。我们以端到端的方式在包含大约100万个对象的大规模多视角数据上训练我们的模型,包括来自Objaverse的合成渲染和来自MVImgNet的真实捕获。这种高容量模型和大规模训练数据的结合使我们的模型具有很高的泛化能力,并能够从各种测试输入(包括真实世界野外捕获和生成模型的图像)中产生高质量的3D重建。视频演示和可交互的3D网格可以在以下网站找到:https://yiconghong.me/LRM/。
尽管多模态大型语言模型(MM-LLMs)最近取得了令人振奋的进展,但它们仍然在有效建模多模态输入之间的交互以及非文本模态中的生成方面存在困难。在这项工作中,我们提出了TEAL(Tokenize and Embed All),这是一种将来自任何模态的输入视为令牌序列并学习所有模态的联合嵌入空间的方法。具体而言,对于来自任何模态的输入,TEAL首先使用现成的分词器将其离散化为令牌序列,然后使用可学习的嵌入矩阵将令牌序列嵌入到联合嵌入空间中。MM-LLMs只需像文本LLMs一样自回归地预测多模态令牌。最后,根据预测的令牌序列,应用相应的去标记器来生成每个模态中的输出。通过联合嵌入空间,TEAL使得冻结的LLMs能够执行涉及图像和音频等非文本模态的理解和生成任务。因此,文本LLM只需作为一个接口,保持其在文本理解和生成方面的高性能。实验证明,TEAL在多模态理解方面取得了显著的改进,并实现了一种简单的多模态生成方案。
大型语言模型(LLMs)的发展极大地推动了多模态理解领域的发展,导致了大型多模态模型(LMMs)的出现。为了增强视觉理解水平,最近的研究通过将物体边界框坐标表示为一系列文本序列(pixel2seq),为LMMs配备了区域级理解能力。本文介绍了一种用于对象定位建模的新范式,称为pixel2emb方法,其中我们要求LMM输出位置嵌入,然后由不同的解码器解码。这种范式允许在多模态对话中使用不同的位置格式(如边界框和蒙版)。此类基于嵌入的位置建模还能够利用定位任务中的现有实践,如检测和分割。在资源有限的情况下,我们的pixel2emb在公平比较下展示出比现有最先进方法(SOTA)更优异的性能,无论是在位置输入还是输出任务中。利用提出的pixel2emb方法,我们训练了一个名为NExT-Chat的LMM,并展示了它处理多任务的能力,如视觉定位、区域描述和基于事实的推理。
最近文本到图像模型在质量上取得了惊人的进步,引起了广泛关注和采用。然而,我们对它们的能力和风险缺乏全面的定量理解。为了填补这一空白,我们引入了一个新的基准,即文本到图像模型的整体评估(HEIM)。与先前的评估主要关注文本-图像对齐和图像质量不同,我们确定了12个方面,包括文本-图像对齐、图像质量、美学、原创性、推理、知识、偏见、毒性、公平性、鲁棒性、多语言性和效率。我们策划了62个涵盖这些方面的场景,并在这一基准上评估了26个最先进的文本到图像模型。我们的结果显示,没有单一模型在所有方面都表现出色,不同模型展示了不同的优势。我们公开发布了生成的图像和人类评估结果,以确保完全透明,网址为https://crfm.stanford.edu/heim/v1.1.0,代码托管在https://github.com/stanford-crfm/helm,并与HELM代码库集成。
我们提出了3DiffTection,这是一种最先进的方法,用于从单个图像中检测3D物体,利用了来自3D感知扩散模型的特征。为了进行3D检测,标注大规模图像数据是资源密集且耗时的。最近,预训练的大型图像扩散模型已经成为有效的2D感知任务特征提取器。然而,这些特征最初是在配对的文本和图像数据上训练的,这些数据并不是针对3D任务进行优化的,并且在应用于目标数据时通常存在领域差距。我们的方法通过两种专门的调整策略来弥合这些差距:几何和语义。对于几何调整,我们微调扩散模型,以执行基于单个图像的新视图合成,引入了一种新颖的极线变换算子。这个任务符合两个基本标准:对3D感知的必要性和仅依赖于姿势图像数据,这些数据是readily available(例如,来自视频)且不需要手动标注。对于语义细化,我们进一步在带有检测监督的目标数据上训练模型。这两个调整阶段都使用ControlNet来保持原始特征功能的完整性。在最后一步中,我们利用这些增强的功能在多个虚拟视点上进行测试时间预测集成。通过我们的方法,我们获得了专为3D检测量身定制的3D感知特征,并在识别跨视点对应方面表现出色。因此,我们的模型成为一个强大的3D检测器,显著超越了先前的基准,例如,单视图3D检测的前例Cube-RCNN,在Omni3D-ARkitscene数据集上的AP3D提高了9.43%。此外,3DiffTection展示了强大的数据效率和对跨领域数据的泛化能力。
最近的研究表明,大型语言模型(LLMs)可以通过编程能力增强传统的神经符号模型,将语言翻译为模块描述,从而在保持模型透明度和效率的同时实现强大的视觉推理结果。然而,这些模型通常会在每个新任务实例中耗尽地生成整个代码片段,这是极其低效的。我们提出通过增长和重用模块来实现生成式神经符号视觉推理。具体而言,我们的模型包括三个独特阶段,即模块初始化、模块生成和模块执行。首先,针对一个视觉-语言任务,我们采用LLMs来检查是否可以重用和增长已建立的模块来处理这个新任务。如果不能,我们会初始化新任务所需的新模块,并指定这个新模块的输入和输出。然后,通过查询LLMs来生成相应的代码片段以满足要求来创建新模块。为了更好地了解新模块的能力,我们将少量训练示例视为测试用例,以查看我们的新模块是否能通过这些案例。如果可以,新模块将被添加到模块库中以供将来重用。最后,我们通过执行解析的程序与新制作的视觉模块来评估我们模型在测试集上的性能以获得结果。我们发现所提出的模型具有几个优点。首先,在标准任务如视觉问题回答和指代表达理解方面表现竞争力;其次,从一个任务学习的模块可以无缝地转移到新任务;最后但同样重要的是,通过观察少量训练示例和重用模块,它能够适应新的视觉推理任务。