每日精选AI研究论文及翻译
基础模型,现在支持深度学习中大多数引人注目的应用,几乎普遍基于Transformer架构及其核心注意力模块。许多次线性时间架构,如线性注意力、门控卷积和循环模型,以及结构化状态空间模型(SSMs),已被开发用于解决Transformer在长序列上的计算效率低下的问题,但它们在诸如语言等重要模态上的表现并不如注意力模型。我们发现这类模型的一个关键弱点是它们无法执行基于内容的推理,并进行了若干改进。首先,简单地让SSM参数成为输入的函数,解决了它们在离散模态上的弱点,使模型能够根据当前标记有选择地沿序列长度维度传播或遗忘信息。其次,尽管这种改变阻止了高效卷积的使用,我们设计了一个硬件感知并行算法以递归模式运行。我们将这些选择性的SSMs集成到一个简化的端到端神经网络架构中,无需注意力甚至MLP块(Mamba)。Mamba具有快速推理能力(比Transformer高5倍的吞吐量)和序列长度的线性扩展性,其性能在实际数据上提高到百万长度序列。作为一种通用序列模型骨干,Mamba在诸如语言、音频和基因组学等多种模态上实现了最先进的性能。在语言建模方面,我们的Mamba-3B模型在预训练和下游评估中均优于同等大小的Transformer模型,并与其两倍大小的Transformer模型性能相匹敌。
我们介绍了MoMask,这是一个用于基于文本驱动的3D人体运动生成的新型遮罩建模框架。在MoMask中,采用了分层量化方案来将人体运动表示为具有高保真度细节的多层离散运动标记。从基础层开始,通过矢量量化获得的一系列运动标记,派生并存储了逐渐增加阶次的残差标记,并存储在层次结构的后续层中。随后是两个不同的双向变换器。对于基础层的运动标记,指定了一个遮罩变换器,在训练阶段根据文本输入预测随机遮罩的运动标记。在生成(即推断)阶段,从空序列开始,我们的遮罩变换器迭代地填充缺失的标记;随后,一个残差变换器学习逐渐预测基于当前层结果的下一层标记。大量实验证明,MoMask在文本到运动生成任务上优于最先进的方法,HumanML3D数据集上的FID为0.045(例如T2M-GPT的0.141),在KIT-ML数据集上为0.228(0.514)。MoMask还可以无缝应用于相关任务,无需进一步模型微调,例如文本引导的时间内插。
我们提出了DREAM,这是一个新颖的训练框架,代表着扩散校正和估计自适应模型,只需要进行最少的代码更改(仅三行),却显著增强了训练与扩散模型中的采样的对齐性。DREAM包括两个组成部分:扩散校正,调整训练以反映采样过程,以及估计适应,平衡感知与失真。当应用于图像超分辨率(SR)时,DREAM能够熟练地在最小化失真和保留高图像质量之间找到平衡。实验证明,DREAM优于标准的基于扩散的SR方法,显示出2到3倍更快的训练收敛速度,以及实现可比较或更优结果所需的采样步骤减少了10到20倍。我们希望DREAM能激发对扩散模型训练范式的重新思考。
最近,多模态大型语言模型(MLLMs)在多模态理解、推理和交互方面展示出令人印象深刻的能力。然而,现有的MLLMs普遍存在严重的虚构问题,生成的文本与相关图像不符合事实。这一问题使得现有的MLLMs不可信,因此在现实世界(尤其是高风险领域)的应用中变得不切实际。为了解决这一挑战,我们提出了RLHF-V,通过细粒度纠正的人类反馈行为对齐来增强MLLM的可信度。具体来说,RLHF-V以片段级别对虚构进行人类偏好收集,并在人类反馈上执行密集的直接偏好优化。在自动和人类评估的五个基准测试中进行的全面实验表明,RLHF-V能够通过具有前景的数据和计算效率显著提高MLLM的可信行为。值得注意的是,使用1.4k个带标注的数据样本,RLHF-V将基础MLLM的虚构率显著降低了34.8%,优于在10k个带标注数据上训练的LLaVA-RLHF。最终模型在开源MLLM中在可信度方面实现了最先进的性能,并且在防止由于过度泛化引起的虚构方面显示出比GPT-4V更好的鲁棒性。我们在https://github.com/RLHF-V/RLHF-V 开源了我们的代码、模型和数据。
从有限观测中合成新视角仍然是一个重要且持久的任务。然而,现有基于 NeRF 的少样本视角合成方法往往在追求准确的 3D 表示时牺牲了高效性。为了解决这一挑战,我们提出了一种基于 3D 高斯光斑的少样本视角合成框架,可以实现实时且照片逼真的视角合成,仅需三个训练视角。所提出的方法,命名为 FSGS,通过精心设计的高斯反卷积过程处理极其稀疏的初始化 SfM 点。我们的方法通过迭代在最具代表性的位置周围分布新的高斯函数,随后填充空白区域中的局部细节。我们还在高斯优化过程中集成了大规模预训练的单目深度估计器,利用在线增强视角指导几何优化朝向最佳解决方案。从有限输入视点观察到的稀疏点开始,我们的 FSGS 能够准确扩展到未见区域,全面覆盖场景并提升新视角的渲染质量。总体而言,FSGS 在准确性和渲染效率上在多个数据集(包括 LLFF、Mip-NeRF360 和 Blender)中均取得了最先进的性能。项目网站:https://zehaozhu.github.io/FSGS/.
神经渲染方法在各种学术和工业应用中显著推进了逼真的3D场景渲染。最近的3D高斯飘零方法实现了最先进的渲染质量和速度,结合了基于基元表示和体积表示的优点。然而,它经常导致严重冗余的高斯函数,试图适应每个训练视图,忽视了底层场景几何。因此,结果模型对重要视角变化、无纹理区域和光照效果变得不够健壮。我们引入了Scaffold-GS,它使用锚点来分布局部3D高斯函数,并根据视角和视锥体内的距离实时预测它们的属性。基于神经高斯函数的重要性,我们开发了锚点生长和修剪策略,可靠地改善场景覆盖范围。我们展示了我们的方法有效减少了冗余高斯函数,同时提供了高质量的渲染。我们还展示了增强的能力,能够适应具有不同细节级别和视角相关观察的场景,而不会牺牲渲染速度。
基于文本的3D人脸合成通过利用文本到图像(T2I)扩散模型取得了显著成果。然而,大多数现有作品仅关注直接生成,忽略了编辑,限制了它们通过迭代调整合成定制的3D人脸。本文提出了一个从人脸生成到编辑的统一文本引导框架。在生成阶段,我们提出了一种几何-纹理解耦生成,以减轻由耦合引起的几何细节丢失。此外,解耦使我们能够利用生成的几何作为纹理生成的条件,产生高度几何-纹理对齐的结果。我们进一步采用了一个经过微调的纹理扩散模型,以提高RGB和YUV空间中的纹理质量。在编辑阶段,我们首先利用一个预训练的扩散模型根据文本更新面部几何或纹理。为了实现顺序编辑,我们引入了一个UV域一致性保持正则化,防止对无关面部属性的意外更改。此外,我们提出了一种自引导一致性权重策略,以提高编辑效率同时保持一致性。通过全面实验,我们展示了我们的方法在人脸合成中的优越性。项目页面:https://faceg2e.github.io/。
神经辐射场(NeRFs)可以通过空间网格表示大幅加速。然而,它们并未明确推理比例尺,因此在重建以不同摄像机距离捕获的场景时会引入混叠伪影。Mip-NeRF及其扩展提出了具有比例感知的渲染器,这些渲染器投影体积视锥而非点采样,但这些方法依赖于位置编码,与网格方法不太兼容。我们提出了一种简单的修改方法,通过在不同空间网格分辨率下训练模型头部。在渲染时,我们简单地使用更粗的网格来渲染覆盖更大体积的样本。我们的方法可以轻松应用于现有的加速NeRF方法,并显著改善渲染质量(在合成和无界真实场景中,将误差率降低了20-90%),同时带来最小的性能开销(因为每个模型头部的评估速度很快)。与Mip-NeRF相比,我们将误差率降低了20%,同时训练速度提高了60倍。
最近,由于预训练的2D扩散模型的发展,自动文本到3D内容的创建取得了显著进展。现有的文本到3D方法通常优化3D表示,以确保渲染的图像与给定文本良好对齐,由预训练的2D扩散模型评估。然而,2D图像和3D资产之间存在实质性的领域差距,主要归因于与相机相关属性的变化以及前景对象的独占存在。因此,直接利用2D扩散模型优化3D表示可能导致次优结果。为解决这一问题,我们提出了X-Dreamer,一种用于高质量文本到3D内容创建的新方法,有效地弥合了文本到2D和文本到3D合成之间的差距。X-Dreamer的关键组成部分是两个创新设计:Camera-Guided Low-Rank Adaptation(CG-LoRA)和Attention-Mask Alignment(AMA)Loss。CG-LoRA通过将相机信息动态地整合到预训练的扩散模型中,通过使用相机相关的生成来进行可训练参数。这种整合增强了生成的3D资产与相机视角之间的对齐。AMA loss使用3D对象的二进制掩模引导预训练扩散模型的注意力图,优先考虑前景对象的创建。该模块确保模型专注于生成准确和详细的前景对象。广泛的评估显示了我们提出的方法相对于现有的文本到3D方法的有效性。我们的项目网页:https://xmuxiaoma666.github.io/Projects/X-Dreamer。