每日精选AI研究论文及翻译
随着大型语言模型(LLM)的发展,将它们与人类偏好相一致变得日益重要。我们提出了分步DPO(sDPO),这是对最近流行的直接偏好优化(DPO)进行扩展,用于对齐调整。该方法涉及将可用的偏好数据集分成几部分,并以分步方式利用它们,而不是一次性全部使用。我们证明了这种方法有助于在DPO训练框架内使用更精确对齐的参考模型。此外,sDPO训练最终模型更具性能,甚至胜过其他具有更多参数的流行LLM。
3D高斯喷洒(GS)在3D拟合保真度和渲染速度方面取得了相当大的改进,超越了神经辐射场。然而,这种具有散布高斯函数的非结构化表示对生成建模构成了重大挑战。为解决这一问题,我们引入了GaussianCube,这是一种既强大又高效的结构化GS表示,适用于生成建模。我们首先提出了一种修改后的密度约束GS拟合算法,可以利用固定数量的自由高斯函数产生高质量的拟合结果,然后通过最优输运将高斯函数重新排列到预定义的体素网格中。结构化网格表示使我们能够在扩散生成建模中使用标准的3D U-Net作为骨干,而无需复杂的设计。在ShapeNet和OmniObject3D上进行的大量实验表明,我们的模型在定性和定量上均实现了最先进的生成结果,突显了GaussianCube作为强大且多功能的3D表示的潜力。
在多模态大型语言模型(LLMs)方面取得了巨大进展。最近的研究将这些模型扩展到视频输入,并具有有前途的指令跟随能力。然而,一个重要的缺失部分是时间定位。这些模型无法准确回答“何时?”的问题。我们确定了限制它们时间定位能力的三个关键方面:(i)时间表示,(ii)架构和(iii)数据。我们通过提出语言指导的时间定位助手(LITA)来解决这些缺点,具有以下特点:(1)我们引入时间标记,用于编码相对于视频长度的时间戳,以更好地表示视频中的时间。 (2)我们在架构中引入SlowFast标记,以在细粒度时间分辨率下捕获时间信息。 (3)我们强调LITA的时间定位数据。除了利用具有时间戳的现有视频数据集外,我们提出了一个新任务,推理时间定位(RTL),以及用于学习和评估此任务的数据集ActivityNet-RTL。推理时间定位需要视频LLMs的推理和时间定位。LITA在这一具有挑战性的任务上表现出色,几乎使基线的时间平均交集-联合(mIoU)翻了一番。此外,我们展示了我们对时间定位的强调也相对于现有的视频LLMs显著改善了基于视频的文本生成,包括对时间理解的36%相对改善。代码可在以下网址找到:https://github.com/NVlabs/LITA
基于扩散的文本到图像生成模型,例如稳定扩散,已经在内容生成领域引起了革命性变革,实现了图像编辑和视频合成等领域的重大进展。尽管这些模型具有强大的能力,但它们并非没有局限性。合成与输入文本良好对齐的图像仍然具有挑战性,需要多次运行并使用精心设计的提示才能获得令人满意的结果。为了减轻这些局限性,许多研究努力对预训练的扩散模型,即UNet,进行微调,利用各种技术。然而,在这些努力中,一个重要的问题一直未被深入探讨:是否可能并且可行通过微调文本编码器来提高文本到图像扩散模型的性能?我们的研究结果表明,与其用其他大型语言模型替换稳定扩散中使用的CLIP文本编码器,我们可以通过我们提出的微调方法TextCraftor 来增强它,从而在定量基准和人类评估中实现实质性改进。有趣的是,我们的技术还通过插值不同经过奖励微调的文本编码器,实现了可控图像生成。我们还证明了TextCraftor 与UNet微调是正交的,并且可以结合以进一步提高生成质量。
我们提出了Mesh2NeRF,这是一种从带纹理的网格中推导出真实辐射场用于3D生成任务的方法。许多3D生成方法将3D场景表示为辐射场进行训练。它们的真实辐射场通常是从大规模合成的3D数据集的多视角渲染中拟合而来,这经常会因遮挡或拟合不足问题而产生伪影。在Mesh2NeRF中,我们提出了一种分析解来直接从3D网格中获取真实辐射场,通过具有定义表面厚度的占据函数来表征密度场,并通过考虑网格和环境光照的反射函数来确定视角相关的颜色。Mesh2NeRF提取准确的辐射场,为训练生成式NeRF和单场景表示提供直接监督。我们验证了Mesh2NeRF在各种任务中的有效性,在ABO数据集的单场景表示中实现了PSNR的显著提高,视图合成方面提高了3.12dB,在ShapeNet Cars的单视图条件生成中提高了0.69 PSNR,并在Objaverse Mugs的无条件生成中显著改善了从NeRF中提取网格的效果。