每日精选AI研究论文及翻译
大规模文本到图像扩散模型的生成先验使得在不同视觉模态上进行广泛的新生成和编辑应用成为可能。然而,当将这些先验调整到复杂的视觉模态,通常表示为多个图像(例如视频)时,实现图像集合的一致性是具有挑战性的。在本文中,我们通过一种新颖的方法,协作评分蒸馏(CSD),来解决这一挑战。CSD基于Stein变分梯度下降(SVGD)。具体来说,我们建议将多个样本视为SVGD更新中的“粒子”,并结合它们的评分函数以同步地提炼图像集合上的生成先验。因此,CSD促进了跨2D图像整合信息的无缝集成,从而实现跨多个样本的一致视觉合成。我们展示了CSD在各种任务中的有效性,包括全景图像、视频和3D场景的视觉编辑。我们的结果强调了CSD作为一种多才多艺的方法,用于增强样本间一致性,从而拓宽了文本到图像扩散模型的适用范围。
针对微分方程的机器学习为计算效率高的数值求解器提供了替代方案,可能在科学和工程领域产生广泛影响。尽管当前的算法通常需要针对特定情境定制的模拟训练数据,但有人可能希望从异构来源或来自杂乱或不完整的实际动态系统观测中学习有用信息。在这项工作中,我们通过实施联合嵌入方法进行自监督学习(SSL),从异构数据中学习偏微分方程的通用表示,这是一种在计算机视觉领域取得显著成功的无监督表示学习框架。我们的表示优于基线方法在不变任务上的表现,例如回归偏微分方程的系数,同时也提高了神经求解器的时间步性能。我们希望我们提出的方法论能够在最终发展偏微分方程通用基础模型方面发挥作用。
我们提出了一种新颖的方法来生成静态和关节式3D资产,其核心是一个3D自解码器。3D自解码器框架将从目标数据集中学习到的属性嵌入潜在空间,然后可以解码为体积表示,以渲染视图一致的外观和几何形状。然后,我们确定了适当的中间体积潜在空间,并引入了强大的归一化和反归一化操作,以从刚性或关节式物体的2D图像或单眼视频中学习3D扩散。我们的方法足够灵活,可以使用现有的相机监督或根本不使用相机信息,而是在训练期间高效地学习它。我们的评估表明,我们的生成结果在各种基准数据集和指标上优于最先进的替代方案,包括合成物体的多视图图像数据集、真实野外移动人物视频以及大规模的静态物体真实视频数据集。
在给定一组校准图像的情况下,我们提出了一种方法,通过3D基元生成简单、紧凑且可操作的3D世界表示。虽然许多方法侧重于恢复高保真度的3D场景,但我们专注于将场景解析为由少量纹理基元组成的中级3D表示。这种表示具有可解释性,易于操作,并适用于基于物理的模拟。此外,与现有的基元分解方法依赖于3D输入数据不同,我们的方法通过可微渲染直接在图像上操作。具体而言,我们将基元建模为纹理超四面体网格,并通过图像渲染损失从头开始优化它们的参数。我们强调为每个基元建模透明度的重要性,这对优化至关重要,同时也能处理不同数量的基元。我们展示了由纹理基元重建输入图像并准确建模可见的3D点,同时提供未见物体区域的全模态形状补全。我们将我们的方法与来自DTU的各种场景的最新技术进行了比较,并展示了它在来自BlendedMVS和Nerfstudio的现实捕获中的稳健性。我们还展示了如何利用我们的结果轻松编辑场景或执行物理模拟。代码和视频结果可在https://www.tmonnier.com/DBW 获取。
由于视频语言预训练(VLP)能够泛化到各种视觉和语言任务,因此变得越来越重要。然而,现有的自我中心VLP框架利用独立的视频和语言编码器,在微调期间仅学习特定于任务的跨模态信息,限制了统一系统的发展。在这项工作中,我们介绍了第二代自我中心视频语言预训练(EgoVLPv2),这是对上一代的显著改进,通过直接将跨模态融合纳入视频和语言骨干结构。EgoVLPv2在预训练期间学习强大的视频文本表示,并重复使用跨模态注意力模块,以灵活高效的方式支持不同的下游任务,降低微调成本。此外,我们提出的骨干融合策略比堆叠额外的融合特定层更轻量级和计算高效。在广泛的VL任务上进行的大量实验表明,EgoVLPv2通过在所有下游任务上实现一致的最先进性能,超过强基线,展现了其有效性。我们的项目页面位于https://shramanpramanick.github.io/EgoVLPv2/。
在各种应用中,从虚拟现实到社交平台,获取高质量且多样化的3D关节式数字人类资产至关重要。生成式方法,如3D生成对抗网络(GANs),正在迅速取代繁琐的手动内容创建工具。然而,现有的3D GAN框架通常依赖于场景表示,这些表示利用模板网格或体积,前者速度快但质量有限,后者容量大但渲染速度慢,从而限制了GAN环境中的3D保真度。在这项工作中,我们引入了分层表面体积(LSVs)作为关节式数字人类的新3D对象表示。LSVs使用多个纹理网格层围绕传统模板表示人体。这些层使用快速可微分光栅化进行渲染,可以被解释为一种体积表示,将其容量分配给模板周围的有限厚度的流形。与传统的单层模板不擅长表示头发或配饰等细微的表面外细节不同,我们的表面体积自然地捕捉到这些细节。LSVs可以被关节化,并且它们在GAN环境中表现出卓越的效率,其中2D生成器学习合成用于各个层的RGBA纹理。在非结构化的单视图2D图像数据集上训练,我们的LSV-GAN生成高质量且视角一致的3D关节式数字人类,无需视角不一致的2D上采样网络。
先前的研究已经确立了测试时训练(TTT)作为一个通用框架,可以在测试时进一步改进已训练模型。在对每个测试实例进行预测之前,模型会使用自监督任务(例如使用遮罩自编码器进行图像重建)在相同实例上进行训练。我们将TTT扩展到流式设置,其中多个测试实例(在我们的情况下是视频帧)按时间顺序到达。我们的扩展是在线TTT:当前模型从先前模型初始化,然后在当前帧和前面立即的一小窗口帧上进行训练。在线TTT在四项任务上显著优于固定模型基准,在三个真实世界数据集上。相对改进为45%和66%,分别用于实例分割和全景分割。令人惊讶的是,在线TTT还优于其离线变体,后者访问更多信息,即训练所有帧的整个测试视频,而不考虑时间顺序。这与先前使用合成视频的发现不同。我们将局部性概念化为在线优于离线TTT的优势。我们通过消融实验和基于偏差-方差权衡的理论分析了局部性的作用。