每日精选AI研究论文及翻译
最近,在使用扩散模型进行个性化图像生成方面取得了显著进展。然而,在开放领域和非微调个性化图像生成领域的发展进展缓慢。在本文中,我们提出了Subject-Diffusion,这是一种新颖的开放领域个性化图像生成模型,除了不需要测试时微调外,还只需要一张参考图像即可支持在任何领域生成单个或多个主体的个性化图像。首先,我们构建了一个自动数据标注工具,并使用LAION-Aesthetics数据集构建了一个包含7600万图像及其相应主体检测边界框、分割蒙版和文本描述的大规模数据集。其次,我们设计了一个新的统一框架,通过结合文本和图像语义,将粗略位置和细粒度参考图像控制结合起来,以最大化主体的忠实度和泛化能力。此外,我们还采用了注意力控制机制来支持多主体生成。广泛的定性和定量结果表明,我们的方法在单个、多个和人类定制图像生成方面优于其他最先进的框架。请参阅我们的项目页面:https://oppo-mente-lab.github.io/subject_diffusion/
神经辐射场(Neural Radiance Fields,NeRF)有成为媒体主要表征的潜力。由于训练 NeRF 从未是一项简单的任务,保护其模型版权应成为首要任务。本文通过分析可能的版权保护解决方案的利弊,提议通过用带水印的颜色表示替换 NeRF 中的原始颜色表示来保护 NeRF 模型的版权。然后,设计了一种抗失真渲染方案,以确保在 NeRF 的 2D 渲染中能够稳健地提取信息。我们提出的方法可以直接保护 NeRF 模型的版权,同时在与可选解决方案相比时保持高渲染质量和比特精度。
随着最近神经辐射场(NeRF)的进展,实现了高保真度的3D面部重建和新视角合成,其操控也成为3D视觉中的重要任务。然而,现有的操控方法需要大量人力,例如用户提供的语义蒙版和手动属性搜索,不适合非专业用户。相反,我们的方法旨在通过单个文本来操控使用NeRF重建的面部。为此,我们首先训练一个场景操控器,即一种潜在代码条件变形NeRF,用于在动态场景中控制面部变形。然而,用单个潜在代码表示场景变形对于合成不同实例中观察到的局部变形是不利的。因此,我们提出的位置条件锚定合成器(PAC)学习用空间变化的潜在代码表示操控后的场景。它们与场景操控器的渲染然后被优化,以在CLIP嵌入空间中与目标文本具有高余弦相似性,以实现文本驱动的操控。据我们所知,我们的方法是首个解决使用NeRF重建的面部进行文本驱动操控的方法。大量结果、比较和消融研究证明了我们方法的有效性。
尽管扩散模型在图像生成方面取得了显著成功,但缓慢的采样仍然是一个持续存在的问题。为加速采样过程,先前的研究已将扩散采样重新表述为ODE/SDE,并引入了高阶数值方法。然而,这些方法通常会产生发散伪影,特别是在采样步骤较少时,这限制了加速的实现。在本文中,我们调查了这些伪影的潜在原因,并提出这些方法稳定区域较小可能是主要原因。为解决这一问题,我们提出了两种新技术。第一种技术涉及将Heavy Ball(HB)动量,一种用于改善优化的众所周知技术,纳入现有的扩散数值方法以扩展它们的稳定区域。我们还证明了由此产生的方法具有一阶收敛性。第二种技术,称为广义Heavy Ball(GHVB),构建了一种新的高阶方法,提供了精度和伪影抑制之间的可变折衷。实验结果表明,我们的技术在减少伪影和提高图像质量方面非常有效,在像素级和潜在级扩散模型的低步采样上超越了最先进的扩散求解器。我们的研究为未来扩散工作的数值方法设计提供了新颖的见解。