每日精选AI研究论文及翻译
在先进的多模态学习时代,诸如GPT-4V之类的多模态大语言模型(MLLMs)已经在弥合语言和视觉元素方面取得了显著进展。然而,封闭源代码的特性和巨大的计算需求给普遍使用和修改带来了显著挑战。这就是开源MLLMs(如LLaVA和MiniGPT-4)的用武之地,它们在各种任务中取得了突破性成就。尽管取得了这些成就,计算效率仍然是一个尚未解决的问题,因为这些模型(如LLaVA-v1.5-13B)需要大量资源。为了解决这些问题,我们引入了TinyGPT-V,这是一种新型模型,将出色的性能与普通的计算能力相结合。它的独特之处在于仅需要一个24G GPU进行训练,以及一个8G GPU或CPU进行推断。TinyGPT-V基于Phi-2构建,将一个有效的语言主干与来自BLIP-2或CLIP的预训练视觉模块相结合。TinyGPT-V的28亿参数可以经历独特的量化过程,适用于在各种8G设备上进行本地部署和推断任务。我们的工作促进了进一步的发展,设计出成本效益高、高效且高性能的MLLMs,扩展了它们在各种实际场景中的适用性。此外,本文提出了通过小主干实现多模态大语言模型的新范式。我们的代码和训练权重分别放置在以下位置: https://github.com/DLYuanGod/TinyGPT-V 和 https://huggingface.co/Tyrannosaurus/TinyGPT-V。
我们介绍了Unified-IO 2,这是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。为了统一不同的模态,我们将输入和输出(图像、文本、音频、动作、边界框等)进行标记化,置于共享的语义空间中,然后使用单个编码器-解码器Transformer模型进行处理。由于使用如此多样化的模态进行训练具有挑战性,我们提出了各种架构改进来稳定模型训练。我们从各种来源的大型多模态预训练语料库中,使用多模态去噪目标对我们的模型从头开始进行训练。为了学习广泛的技能,比如遵循多模态指令,我们构建了一个包含120个数据集、提示和增强的集合,并在其上进行微调。通过单一统一模型,Unified-IO 2在GRIT基准测试中取得了最先进的性能,并在超过35个基准测试中取得了强大的结果,包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操作。我们向研究界发布了我们的所有模型。
高质量、大规模的语料库是构建基础模型的基石。在这项工作中,我们介绍了MathPile,这是一个包含约95亿标记的多样化且高质量的数学中心语料库。在创建过程中,我们坚持“少即是多”的原则,坚信数据质量在预训练阶段甚至比数量更重要。我们进行了细致的数据收集和处理工作,包括一系列复杂的预处理、预过滤、语言识别、清洗、过滤和去重,确保了我们语料库的高质量。此外,我们对下游基准测试集进行了数据污染检测,以消除重复数据。我们希望我们的MathPile能够帮助提升语言模型的数学推理能力。我们计划开源不同版本的MathPile,并提供用于处理的脚本,以促进这一领域未来的发展。
我们提出了MobileVLM,这是一个专为在移动设备上运行的多模态视觉语言模型(MMVLM)。它是各种移动设备导向的架构设计和技术的融合,包括一组规模为1.4B和2.7B参数的语言模型,从头开始训练,以CLIP方式预训练的多模态视觉模型,通过高效的投影仪进行跨模态交互。我们在几个典型的VLM基准测试上评估了MobileVLM。我们的模型表现与一些规模更大的模型相当。更重要的是,我们在高通骁龙888 CPU和英伟达Jeston Orin GPU上测量了推理速度,并分别获得了每秒21.5个标记和65.3个标记的最新性能。我们的代码将在以下网址提供:https://github.com/Meituan-AutoML/MobileVLM。
已经提出了几种无监督图像分割方法,这些方法消除了对密集手动标注的分割掩模的需求;当前的模型分别处理语义分割(例如,STEGO)或类别不可知实例分割(例如,CutLER),但不是同时处理这两种(即,全景分割)。我们提出了一种无监督通用分割模型(U2Seg),能够使用一种新颖的统一框架执行各种图像分割任务 -- 实例、语义和全景 --。U2Seg通过利用自监督模型生成这些分割任务的伪语义标签,然后进行聚类;每个聚类代表像素的不同语义和/或实例成员资格。然后我们对这些伪语义标签进行自训练,相对于针对每个任务量身定制的专门方法,取得了显著的性能提升:在COCO上,无监督实例分割中相对于CutLER的+2.6 AP^{box}提升,无监督语义分割中相对于STEGO的+7.0 PixelAcc增加。此外,我们的方法为无监督全景分割建立了一个新的基准,这是以前未曾探索过的。U2Seg还是一个强大的预训练模型,用于少样本分割,在低数据情况下训练时,例如仅使用1%的COCO标签时,相对于CutLER,AP^{mask}提升了+5.0。我们希望我们简单而有效的方法能够激发更多关于无监督通用图像分割的研究。
最近在4D内容生成领域取得了显著进展。然而,现有方法存在优化时间长、缺乏运动可控性和细节水平低的问题。在本文中,我们介绍了DreamGaussian4D,这是一个高效的4D生成框架,基于4D高斯飞溅表示法。我们的关键洞察是,在高斯飞溅中对空间变换进行明确建模,使其相对于隐式表示更适合于4D生成设置。DreamGaussian4D将优化时间从几个小时减少到几分钟,允许灵活控制生成的3D运动,并产生可在3D引擎中高效渲染的动画网格。
我们目睹了基于深度学习的3D视觉取得了显著进展,从基于神经辐射场(NeRF)的3D表示学习到在新颖视角合成(NVS)中的应用。然而,现有用于基于深度学习的3D视觉的场景级数据集,仅限于合成环境或狭窄选择的现实场景,相当不足。这种不足不仅妨碍了对现有方法的全面基准测试,还限制了在基于深度学习的3D分析中可以探索的内容。为了填补这一关键差距,我们提出了DL3DV-10K,一个大规模场景数据集,包括来自65种感兴趣点(POI)位置的10,510个视频中的51.2百万帧,涵盖了有界和无界场景,具有不同水平的反射、透明度和照明。我们在DL3DV-10K上对最近的NVS方法进行了全面基准测试,揭示了未来NVS研究的宝贵见解。此外,我们在一项试点研究中从DL3DV-10K学习到了可泛化的NeRF令人鼓舞的结果,这表明了大规模场景级数据集对于打造学习3D表示的基础模型的必要性。我们的DL3DV-10K数据集、基准测试结果和模型将在https://dl3dv-10k.github.io/DL3DV-10K/ 上公开获取。
NeRF已经极大地推进了3D场景重建,在各种环境中捕捉了复杂的细节。现有方法已成功利用辐射场烘焙来促进小场景的实时渲染。然而,当应用于大规模场景时,这些技术面临重大挑战,由于计算、内存和带宽资源有限,很难提供无缝的实时体验。在本文中,我们提出了City-on-Web,通过将整个场景分割成可管理的块,并为每个块设置适当的细节级别,确保高保真度、高效的内存管理和快速渲染。同时,我们精心设计了训练和推断过程,以确保Web上的最终渲染结果与训练一致。由于我们的新颖表示和精心设计的训练/推断过程,我们是首个在资源受限环境中实现大规模场景实时渲染的方法。大量实验结果表明,我们的方法促进了在Web平台上大规模场景的实时渲染,在RTX 3060 GPU上以1080P分辨率实现32FPS,同时达到了与最先进方法接近的质量水平。项目页面:https://ustc3dv.github.io/City-on-Web/
在快速发展的数字内容生成领域,焦点已经从文本到图像(T2I)模型转向更先进的视频扩散模型,特别是文本到视频(T2V)和图像到视频(I2V)。本文探讨了I2V提出的复杂挑战:将静态图像转换为动态、栩栩如生的视频序列,同时保持原始图像的保真度。传统方法通常涉及将整个图像整合到扩散过程中或使用预训练的编码器进行交叉注意力。然而,这些方法通常需要改变T2I模型的基本权重,从而限制了它们的可重用性。我们引入了一种新颖的解决方案,即I2V-Adapter,旨在克服这些限制。我们的方法保留了T2I模型及其固有运动模块的结构完整性。I2V-Adapter通过并行处理带有噪声的视频帧和输入图像,利用轻量级适配器模块运行。该模块充当桥梁,有效地将输入与模型的自注意力机制连接起来,从而在不需要对T2I模型进行结构更改的情况下保持空间细节。此外,I2V-Adapter仅需要传统模型参数的一小部分,并确保与现有社区驱动的T2I模型和控制工具兼容。我们的实验结果展示了I2V-Adapter生成高质量视频输出的能力。这种性能,加上其多功能性和对可训练参数需求的降低,在AI驱动视频生成领域,特别是创意应用方面,代表了实质性的进步。
生成基于物理的角色动画并具有直观控制一直是一项令人向往且具有众多应用的任务。然而,生成能够反映高级人类指令的物理模拟动画仍然是一个困难的问题,这是由于物理环境的复杂性和人类语言的丰富性所致。在本文中,我们提出了InsActor,这是一个基于原则的生成框架,利用最近的扩散式人体运动模型的进展,以生成基于物理的角色的指令驱动动画。我们的框架使InsActor能够通过采用扩散策略进行灵活条件化的运动规划,从而捕捉高级人类指令与角色动作之间的复杂关系。为了克服计划运动中的无效状态和不可行状态转换,InsActor发现了低级技能,并将计划映射到紧凑的潜在技能序列空间中。大量实验表明,InsActor在各种任务上取得了最先进的结果,包括基于指令驱动的运动生成和基于指令驱动的航向点。值得注意的是,InsActor能够利用高级人类指令生成物理模拟动画,使其成为一种有价值的工具,特别适用于执行具有丰富指令集的长视程任务。
动态场景的新视角合成一直是一个引人注目但具有挑战性的问题。尽管最近取得了进展,但同时实现高分辨率逼真结果、实时渲染和紧凑存储仍然是一项艰巨任务。为了解决这些挑战,我们提出了时空高斯特征喷洒作为一种新颖的动态场景表示,由三个关键组件组成。首先,我们通过增强3D高斯函数的时间不透明度和参数化运动/旋转来形成富有表现力的时空高斯函数。这使得时空高斯函数能够捕捉场景中的静态、动态以及瞬时内容。其次,我们引入了特征喷洒渲染,用神经特征取代球谐函数。这些特征有助于建模视角和时间相关的外观,同时保持较小的尺寸。第三,我们利用训练误差和粗深度的指导,在现有管线难以收敛的区域对新的高斯函数进行采样。在几个已建立的真实世界数据集上的实验表明,我们的方法实现了最先进的渲染质量和速度,同时保持了紧凑的存储。在8K分辨率下,我们的精简版本模型可以在Nvidia RTX 4090 GPU上以60 FPS进行渲染。
为了在大量可用文本数据的大语料库上实现最佳性能,最先进的语言模型正变得越来越庞大。然而,Transformer架构的庞大规模使得在计算、环境或设备特定约束内部署模型变得困难。我们探讨了对现有预训练模型进行数据驱动压缩作为训练较小模型的替代方法。为此,我们将目标损失景观的Kronecker分解曲率逼近扩展到大型语言模型。通过这样做,我们可以计算可以移除的结构的动态分配,以及考虑到这种移除的剩余权重的更新。我们提供了一个通用框架,用于非结构化、半结构化和结构化剪枝,并改进了权重更新以捕捉更多权重之间的相关性,同时保持计算效率。在实验中,我们的方法可以将OPT模型和Llamav2-7B的行和列剪枝20%-30%,性能几乎没有损失,并在大型语言模型的非结构化和半结构化剪枝方面取得了最先进的结果。
从单个视角解决图像到三维的问题是一个不适定问题,目前通过扩散模型解决这个问题的神经重建方法仍然依赖于特定场景的优化,限制了它们的泛化能力。为了克服现有方法在泛化和一致性方面的局限性,我们引入了一种新颖的神经渲染技术。我们的方法采用有符号距离函数作为表面表示,并通过几何编码体积和超网络结合可泛化的先验。具体而言,我们的方法从生成的多视角输入构建神经编码体积。我们在测试时根据输入图像调整有符号距离函数网络的权重,通过超网络使模型能够以前馈方式适应新场景。为了减少合成视图产生的伪影,我们提出使用体积变换模块来改善图像特征的聚合,而不是单独处理每个视角。通过我们提出的方法,命名为超体积变换(Hyper-VolTran),我们避免了特定场景优化的瓶颈,并保持了从多个视角生成的图像的一致性。我们的实验表明了我们提出的方法的优势,具有一致的结果和快速生成。
神经图形基元在其神经网络通过包含在网格中排列的可训练特征的空间数据结构增强时,速度更快且质量更高。然而,现有的特征网格要么具有较大的内存占用(密集或分解网格、树和哈希表),要么性能较慢(索引学习和向量量化)。在本文中,我们展示了具有学习探针的哈希表既没有这些缺点,从而在大小和速度上取得了有利的组合。在相同质量下,推理速度比未经探测的哈希表更快,而训练仅慢1.2-2.6倍,明显优于先前的索引学习方法。我们通过将所有特征网格转化为一个共同的框架来得出这个公式:它们各自对应于一个查找函数,该函数索引到一个特征向量表中。在这个框架中,现有数据结构的查找函数可以通过对它们的索引进行简单算术组合来合并,从而实现帕累托最优压缩和速度。
当前的大规模扩散模型代表了条件图像合成的一大进步,能够解释各种线索,如文本、人体姿势和边缘。然而,它们对大量计算资源和广泛数据收集的依赖仍然是一个瓶颈。另一方面,现有扩散模型的整合,每个模型针对不同控制因素,在独特的潜在空间中运行,由于图像分辨率和潜在空间嵌入结构不兼容,使它们的联合使用受到挑战。为了解决这些限制,我们提出了“盘古绘”,这是一种新颖的潜在扩散模型,专为资源高效的文本到图像合成而设计,能够灵活地适应多个控制信号。我们首先提出了一种资源高效的时间解耦训练策略,将整体文本到图像模型分为结构生成器和纹理生成器。每个生成器都使用一种方案进行训练,最大限度地利用数据并提高计算效率,将数据准备减少了48%,训练资源减少了51%。其次,我们引入了“合作扩散”算法,实现了在统一去噪过程中协同使用各种预训练的扩散模型,这些模型具有不同的潜在空间和预定义分辨率。这使得能够在任意分辨率进行多控制图像合成,而无需额外数据或重新训练。盘古绘的实证验证展示了它在文本到图像和多控制图像生成方面的卓越能力,为未来模型训练效率和生成多样性指明了一个有前途的方向。最大的5B T2I盘古绘模型已发布在Ascend平台上。项目页面:https://pangu-draw.github.io
最近在以主题驱动的图像生成方面取得的进展已经实现了零样本生成,然而精确选择和聚焦于关键主题表征仍然具有挑战性。为了解决这一问题,我们引入了SSR-编码器,这是一种新颖的架构,旨在有选择性地从单个或多个参考图像中捕获任何主题。它可以响应包括文本和蒙版在内的各种查询模态,而无需在测试时进行微调。SSR-编码器结合了一个Token-to-Patch对齐器,用于将查询输入与图像补丁对齐,以及一个保留细节的主题编码器,用于提取和保留主题的精细特征,从而生成主题嵌入。这些嵌入与原始文本嵌入一起用于调节生成过程。SSR-编码器以其模型的泛化能力和效率而闻名,可以适应各种自定义模型和控制模块。通过嵌入一致性正则化损失来增强训练,我们广泛的实验表明其在多样化和高质量图像生成中的有效性,表明其具有广泛的适用性。项目页面:https://ssr-encoder.github.io
文本引导的领域自适应和生成具有3D感知的肖像在各个领域中有许多应用。然而,由于缺乏训练数据以及处理高度多样的几何和外观方面的挑战,针对这些任务的现有方法存在着诸如缺乏灵活性、不稳定性和低保真度等问题。在本文中,我们提出了一个新颖的框架DiffusionGAN3D,通过结合3D GANs和扩散先验来增强文本引导的3D领域自适应和生成。具体而言,我们集成了预训练的3D生成模型(例如EG3D)和文本到图像扩散模型。前者为从文本生成稳定且高质量的头像提供了坚实基础。而扩散模型则提供强大的先验,并指导3D生成器以信息丰富的方向进行微调,以实现灵活且高效的文本引导领域自适应。为了增强领域自适应中的多样性和文本到头像生成能力,我们分别引入了相对距离损失和特定案例可学习的三平面。此外,我们设计了一个渐进式纹理细化模块,以提高上述两个任务的纹理质量。大量实验证明,所提出的框架在领域自适应和文本到头像任务中取得了出色的结果,在生成质量和效率方面优于现有方法。项目主页位于https://younglbw.github.io/DiffusionGAN3D-homepage/.
文本到图像生成模型功能强大,但使用起来很困难。用户需要精心设计特定提示以获得更好的图像,尽管这些图像可能会重复。本文提出了一个提示扩展框架,帮助用户以更少的努力生成高质量、多样化的图像。提示扩展模型以文本查询作为输入,并输出一组扩展文本提示,经过优化,当传递给文本到图像模型时,能生成更多种类的吸引人图像。我们进行了人类评估研究,结果显示通过提示扩展生成的图像在审美和多样性方面优于基准方法生成的图像。总体而言,本文提出了一种新颖有效的方法,改善文本到图像生成体验。
去噪扩散模型固有的生成能力使其非常适用于图像恢复任务,其目标是在生成空间中找到与输入图像紧密相似的最佳高质量图像。我们提出了一种方法,通过简单地向待恢复的输入图像添加噪声,然后去噪来调整预训练的扩散模型以用于图像恢复。我们的方法基于这样一个观察:生成模型的空间需要受到约束。我们通过对捕捉输入图像特征的一组锚定图像对生成模型进行微调来施加这种约束。有了受约束的空间,我们可以利用用于生成的采样策略来进行图像恢复。我们针对先前的方法进行评估,并在多个真实世界的恢复数据集上展示出卓越的性能,能够保留身份和图像质量。我们还展示了一个重要且实用的个性化恢复应用,其中我们使用个人相册作为锚定图像来约束生成空间。这种方法使我们能够产生能够准确保留高频细节的结果,而先前的工作无法做到。项目网页:https://gen2res.github.io。