每日精选AI研究论文及翻译
我们介绍了光扩散,这是一种改善肖像照明的新方法,可以软化严厉的阴影和高光,同时保留整体场景的照明。受专业摄影师的扩散器和衬纱启发,我们的方法可以在仅有一张肖像照片的情况下软化照明。先前的肖像重照方法侧重于改变整个照明环境,消除阴影(忽略强烈的高光),或者完全消除遮蔽。相比之下,我们提出了一种基于学习的方法,允许我们控制光扩散的程度,并将其应用于野外肖像。此外,我们设计了一种方法,可以合成生成具有次表面散射效应的外部阴影,并符合主体脸部的形状。最后,我们展示了我们的方法如何提高更高级别视觉应用的稳健性,例如反照率估计、几何估计和语义分割。
尽管最近快速发展的3D生成神经网络极大地改进了3D形状生成,但普通用户仍然不方便创建3D形状和控制生成形状的局部几何。为了解决这些挑战,我们提出了一种基于扩散的3D生成框架 -- 局部注意力SDF扩散,用于通过2D草图图像输入建模可信的3D形状。我们的方法建立在一个两阶段扩散模型上。第一阶段名为占用扩散,旨在生成一个低分辨率的占用场,以近似形状外壳。第二阶段名为SDF扩散,合成一个高分辨率的有符号距离场,用于提取第一阶段确定的占用体素内的细节几何。我们的模型采用了一种新颖的视图感知局部注意力机制,用于基于图像的形状生成,利用2D图像块特征来引导3D体素特征学习,极大地提高了局部可控性和模型的泛化能力。通过在基于草图和基于类别的3D形状生成任务中进行大量实验,我们验证并展示了我们的方法提供可信和多样的3D形状的能力,以及相对于现有工作的卓越可控性和泛化能力。我们的代码和训练模型可在以下网址找到:https://zhengxinyang.github.io/projects/LAS-Diffusion.html
大型语言模型(LLMs)展示了出色的语言能力。基于先进的LLMs,GPT-4展现出非凡的多模态能力,超越了先前的视觉语言模型。我们将这归因于与先前的多模态模型相比使用了更先进的LLMs。不幸的是,GPT-4的模型架构和训练策略尚不为人所知。为了赋予LLMs多模态能力,我们提出了X-LLM,它通过X2L接口将多模态(图像、语音、视频)转换为外语,并输入到一个大型语言模型(ChatGLM)中。具体来说,X-LLM通过X2L接口对齐多个冻结的单模态编码器和一个冻结的LLM,其中“X”表示图像、语音和视频等多模态,而“L”表示语言。X-LLM的训练包括三个阶段:(1)转换多模态信息:第一阶段训练每个X2L接口分别与其相应的单模态编码器对齐,将多模态信息转换为语言;(2)将X2L表示与LLM对齐:单模态编码器通过X2L接口独立与LLM对齐;(3)整合多模态:所有单模态编码器通过X2L接口与LLM对齐,将多模态能力整合到LLM中。我们的实验表明,X-LLM展示了令人印象深刻的多模态聊天能力,有时表现出对未见图像/指令的多模态GPT-4行为,并在合成的多模态指令遵循数据集上相对于GPT-4获得了84.5%的相对分数。我们还进行了关于使用LLM进行ASR和多模态ASR的定量测试,希望推动基于LLM的语音识别时代的到来。
组合推理是人类视觉智能的标志;然而,尽管大型视觉-语言模型的规模庞大,它们仍然难以表示通过将对象与其属性组合而成的简单组合。为了衡量这种缺乏组合能力,我们设计了Cola,一个文本到图像检索基准,用于组合带属性的定位对象。利用Cola作为实验平台,我们探索建模设计,以使预训练的视觉-语言模型能够对附加到多个对象上的多个属性进行组合推理。我们在两个开创性的视觉-语言模型上探索了6种微调策略,使用了3个微调数据集和2个测试基准(Cola和CREPE)。令人惊讶的是,我们的最佳微调策略将一个拥有151M参数的CLIP,其在预训练期间分别对图像和语言进行编码,改进到与一个使用多模态Transformer编码器在预训练期间同时关注视觉和语言模态的241M参数FLAVA一样出色。这种最佳微调策略是一个轻量级的多模态适配器,可以同时关注预训练模型生成的图像和语言特征。我们展示了这比常见策略如提示/微调或调整相同数量的单模态层效果更好。
扩散模型已经成为视觉领域基础模型中的关键支柱之一。它们的一个关键应用是通过单一扩散先验普遍解决不同下游逆任务,而无需为每个任务重新训练。大多数逆任务可以被表述为推断给定测量(例如,遮罩图像)的数据后验分布(例如,完整图像)。然而,在扩散模型中,由于扩散过程的非线性和迭代特性使得后验难以处理,这是一个挑战。为了应对这一挑战,我们提出了一种变分方法,通过设计寻求逼近真实后验分布。我们展示了我们的方法自然地导致通过去噪扩散过程(RED-Diff)进行正则化,其中不同时间步的去噪器同时对图像施加不同的结构约束。为了衡量来自不同时间步的去噪器的贡献,我们提出了基于信噪比(SNR)的加权机制。我们的方法为使用扩散模型解决逆问题提供了新的变分视角,允许我们将采样公式化为随机优化,从而可以简单地应用具有轻量级迭代的现成求解器。我们针对图像修复任务(如修补和超分辨率)的实验展示了我们的方法相对于基于采样的扩散模型的最新技术的优势。
现代生成器以令人印象深刻的逼真程度呈现说话头像视频,引入了新的用户体验,如在受限带宽预算下进行视频会议。然而,它们的安全采用需要一种机制来验证生成的视频是否可信。例如,对于视频会议,我们必须识别合成视频肖像未经个人同意使用外观的情况。我们将这项任务称为“头像指纹识别”。我们建议通过利用每个人独特的面部运动特征来解决这个问题。具体来说,我们学习一个嵌入式空间,其中一个身份的运动特征被分组在一起,并且与其他身份的运动特征相距较远,而不考虑合成视频中的外观。随着说话头像生成器变得更加普遍,头像指纹识别算法将变得至关重要,但目前尚无大规模数据集用于这一新任务。因此,我们提供了一个包含人们进行编写和即兴短独白的大型数据集,同时伴随着合成视频,其中我们渲染一个人的视频,但使用另一个人的面部外观。项目页面:https://research.nvidia.com/labs/nxp/avatar-fingerprinting/。
网页一直是视觉-语言和仅语言任务的丰富、可扩展的资源。然而,只有网页的部分内容被保留下来:图像-标题对、长文本文章或原始HTML,从未集中在一个地方。因此,网页任务受到了较少关注,结构化的图像-文本数据也被低估了。为了研究多模态网页理解,我们引入了包含200万个页面的维基百科网页套件(WikiWeb2M)。我们验证了它在三个生成任务上的实用性:页面描述生成、章节摘要和上下文图像字幕。我们设计了一种新颖的注意力机制Prefix Global,它选择最相关的图像和文本内容作为全局令牌,以便关注网页的其余内容以获取上下文。通过使用页面结构来分离这些令牌,它比全注意力机制表现更好,并具有更低的计算复杂度。实验表明,WikiWeb2M中的新注释相对于先前工作的数据改善了任务性能。我们还对序列长度、输入特征和模型大小进行了消融实验。
我们提出了一种用于物理模拟角色的复合和任务驱动运动控制的深度学习方法。与使用强化学习模仿全身运动的现有数据驱动方法不同,我们通过在类似GAN的设置中利用多个鉴别器,同时直接从多个参考运动中为特定身体部位学习解耦合的运动。在这个过程中,无需进行任何手动工作来生成用于学习的复合参考运动。相反,控制策略自行探索如何自动组合复合运动。我们进一步考虑多个特定任务奖励,并训练一个单一的、多目标的控制策略。为此,我们提出了一个新颖的多目标学习框架,自适应平衡来自多个来源和多个目标导向控制目标的不同运动的学习。此外,由于复合运动通常是更简单行为的增强,我们引入了一种高效的样本方法来逐步训练复合控制策略,其中我们将一个预先训练的策略作为元策略并训练一个合作策略,使其为新的复合任务进行调整。我们展示了我们的方法在涉及复合运动模仿和多目标导向控制的各种具有挑战性的多目标任务上的适用性。