每日精选AI研究论文及翻译
我们提出了aMUSEd,这是一个基于MUSE的开源、轻量级的遮蔽图像模型(MIM),用于文本到图像的生成。aMUSEd仅使用了MUSE参数的10%,专注于快速图像生成。相较于潜在扩散这一主流文本到图像生成方法,我们认为MIM领域尚未得到充分探索。与潜在扩散相比,MIM需要更少的推理步骤,并且更具可解释性。此外,MIM可以通过仅使用单个图像进行微调来学习额外的风格。我们希望通过展示MIM在大规模文本到图像生成任务上的有效性,并发布可复现的训练代码,鼓励进一步探索MIM。我们还发布了两个模型的检查点,这两个模型可以直接生成分辨率为256x256和512x512的图像。
我们提出了一个框架,用于生成栩栩如生的全身逼真化身,根据二元互动的对话动态进行手势。给定语音音频,我们输出了个体的多种手势运动可能性,包括面部、身体和手部。我们方法的关键在于将来自向量量化的样本多样性优势与通过扩散获得的高频细节相结合,以生成更具动态表现力的运动。我们使用高度逼真的化身可视化生成的运动,能够表达手势中的重要细微差别(例如冷笑和假笑)。为促进这一研究领域,我们引入了一种首创的多视角对话数据集,可用于逼真重建。实验表明,我们的模型生成了适当且多样化的手势,优于仅扩散和仅向量量化方法。此外,我们的感知评估凸显了逼真性(与网格相比)在准确评估对话手势中微妙运动细节方面的重要性。代码和数据集可在线获取。
我们提出了图像雕塑,这是一个通过整合来自3D几何和图形学工具来编辑2D图像的新框架。这种方法与现有方法有显著区别,现有方法局限于2D空间,通常依赖文本指令,导致歧义和受限控制。图像雕塑将2D对象转换为3D,使得可以直接与它们的3D几何进行交互。在后期编辑中,这些对象被重新渲染为2D,与原始图像融合,通过粗到精的增强过程产生高保真的结果。该框架支持精确、可量化和物理合理的编辑选项,如姿势编辑、旋转、平移、3D组合、雕刻和串行添加。它标志着将生成模型的创造自由与图形管线的精度结合的初步步骤。
最近图像扩散模型的进展显著改善了高质量图像的生成。结合神经辐射场(NeRFs),它们为3D生成带来了新机遇。然而,大多数生成式3D方法以物体为中心,并将它们应用于编辑现有逼真场景并不是一件简单的事。我们提出了SIGNeRF,这是一种新颖的快速可控的NeRF场景编辑和场景整合物体生成方法。一种新的生成式更新策略确保了编辑后图像的3D一致性,而无需迭代优化。我们发现,深度调节扩散模型固有地具有通过请求图像网格而不是单个视图生成3D一致视图的能力。基于这些见解,我们引入了一组修改图像的多视图参考表。我们的方法根据参考表一致地更新图像集合,并一次性用新生成的图像集对原始NeRF进行精炼。通过利用图像扩散模型的深度调节机制,我们可以对编辑的空间位置进行精细控制,并通过选定区域或外部网格强制形状引导。
基于扩散的歌声转换(SVC)方法取得了显著的表现,产生了与目标音色高度相似的自然音频。然而,迭代采样过程导致推理速度较慢,因此加速变得至关重要。本文提出了一种基于一致性模型的CoMoSVC方法,旨在实现高质量生成和高速采样。首先专门为SVC设计了基于扩散的教师模型,然后在自一致性属性下进一步提炼学生模型,实现一步采样。在单个NVIDIA GTX4090 GPU上的实验表明,尽管CoMoSVC的推理速度明显快于最先进的基于扩散的SVC系统,但在主观和客观指标基础上仍实现了可比或更优的转换性能。音频样本和代码可在https://comosvc.github.io/获取。
并行文本到语音模型已被广泛应用于实时语音合成,与传统的自回归模型相比,它们提供了更多的可控性和更快的合成过程。尽管并行模型在许多方面都有优势,但由于其完全并行的架构(如Transformer),它们自然而然地不适用于增量合成。在这项工作中,我们提出了增量FastPitch,这是一种新颖的FastPitch变体,通过改进基于块的FFT块的架构、使用受限制的接受域块注意力蒙版进行训练,以及使用固定大小的过去模型状态进行推断,能够增量地生成高质量的Mel块。实验结果表明,我们的提议可以产生与并行FastPitch相媲美的语音质量,同时具有显著更低的延迟,从而为实时语音应用提供了更低的响应时间。
单反相机可以通过调整镜头距离或更换镜头类型实现多个变焦级别。然而,由于空间限制,智能手机设备无法采用这些技术。大多数智能手机制造商采用混合变焦系统:通常是在低变焦级别使用广角(W)摄像头,在高变焦级别使用长焦(T)摄像头。为了模拟W和T之间的变焦级别,这些系统会裁剪并对W摄像头的图像进行数字上采样,导致显著的细节丢失。在本文中,我们提出了一种在移动设备上进行混合变焦超分辨率的高效系统,该系统捕获同步的W和T拍摄,并利用机器学习模型来对齐并从T传输细节到W。我们进一步开发了一种自适应混合方法,考虑了景深不匹配、场景遮挡、流不确定性和对齐错误。为了最小化领域差距,我们设计了一个双手机摄像头架来捕获真实世界的输入和监督训练的地面真相。我们的方法在移动平台上在500毫秒内生成一张1200万像素的图像,并在真实场景的广泛评估中与最先进的方法进行了有利的比较。