每日精选AI研究论文及翻译
基于拖动的图像编辑近来因其互动性和精度而备受青睐。然而,尽管文本到图像模型能够在一秒内生成样本,但由于准确反映用户交互并保持图像内容的挑战,拖动编辑仍然落后。一些现有方法依赖于计算密集型的每幅图像优化或复杂的基于引导的方法,需要额外的输入,如可移动区域的蒙版和文本提示,从而损害了编辑过程的互动性。我们引入InstantDrag,这是一个无需优化的流程,可增强互动性和速度,只需一张图像和一个拖动指令作为输入。InstantDrag包括两个精心设计的网络:一个拖动条件的光流生成器(FlowGen)和一个光流条件的扩散模型(FlowDiffusion)。InstantDrag通过将任务分解为运动生成和运动条件图像生成,从真实世界视频数据集中学习基于拖动的图像编辑的运动动态。我们通过对面部视频数据集和一般场景的实验展示了InstantDrag在没有蒙版或文本提示的情况下执行快速、逼真的编辑的能力。这些结果突显了我们方法在处理基于拖动的图像编辑方面的效率,使其成为互动、实时应用的一个有前途的解决方案。
将各种角色素描进行动画化是一项引人入胜的视觉内容创作任务。针对单个角色素描,现有的动画方法局限于平面2D运动,因此缺乏3D效果。另一种解决方案是从角色素描中重建3D模型作为代理,然后将3D运动数据重新定位到其中。然而,现有的图像到3D的方法在外观和几何方面无法很好地处理业余角色素描。我们观察到角色素描中常见的轮廓线会由于其视角相关性在纹理合成中引入显著的歧义。此外,由单线轮廓表示的细小区域(例如棍人的细肢)由于其精细结构而难以重建。为了解决这些问题,我们提出了一个新颖系统,DrawingSpinUp,以产生可信的3D动画,为角色素描注入生机,使其可以自由旋转、跳跃,甚至进行嘻哈舞蹈。为了改善外观,我们采用了一种先移除再恢复的策略,首先去除视角相关的轮廓线,然后在重新定位重建的角色后再渲染它们。为了改进几何结构,我们开发了基于骨架的细化变形算法,以完善由单线轮廓表示的细小结构。实验评估和感知用户研究表明,我们提出的方法优于现有的2D和3D动画方法,并能从单个角色素描生成高质量的3D动画。请参阅我们的项目页面(https://lordliang.github.io/DrawingSpinUp)获取代码和生成的动画。
开放词汇检测(OVD)旨在检测超出预定义类别集的对象。作为将YOLO系列纳入OVD的开创性模型,YOLO-World非常适用于注重速度和效率的场景。然而,其性能受到其颈部特征融合机制的阻碍,导致二次复杂度和有限的引导感受野。为了解决这些限制,我们提出了Mamba-YOLO-World,这是一种新颖的基于YOLO的OVD模型,采用了提出的MambaFusion Path Aggregation Network(MambaFusion-PAN)作为其颈部架构。具体而言,我们引入了一种基于状态空间模型的特征融合机制,包括具有线性复杂度和全局引导感受野的并行引导选择扫描算法和串行引导选择扫描算法。它利用多模态输入序列和mamba隐藏状态来指导选择性扫描过程。实验证明,我们的模型在零样本和微调设置下在COCO和LVIS基准测试中优于原始的YOLO-World,同时保持可比的参数和FLOPs。此外,它以更少的参数和FLOPs超越现有的最先进OVD方法。
对于多视角数据,重新照明辐射场存在严重的欠约束问题,因为大多数情况下这些数据是在单一照明条件下捕获的;对于包含多个物体的完整场景尤其困难。我们提出了一种方法,通过利用从2D图像扩散模型中提取的先验知识,使用这种单一照明数据来创建可重新照明的辐射场。我们首先在一个以光照方向为条件的多照明数据集上对2D扩散模型进行微调,从而能够将单一照明捕获转换为一个逼真但可能不一致的多照明数据集,直接定义光照方向。我们利用这个增强数据来创建由3D高斯斑点表示的可重新照明的辐射场。为了实现对低频照明方向的直接控制,我们使用一个以光照方向为参数的多层感知器来表示外观。为了强化多视角一致性并克服不准确性,我们优化了每个图像的辅助特征向量。我们展示了在单一照明条件下对合成和真实多视角数据的结果,表明我们的方法成功利用了2D扩散模型的先验知识,实现了对完整场景进行逼真的3D重新照明。项目网站:https://repo-sam.inria.fr/fungraph/generative-radiance-field-relighting/
体积视频代表了视觉媒体中的一项革命性进展,使用户能够自由浏览沉浸式虚拟体验,并缩小数字世界与现实世界之间的差距。然而,现有工作流程中对网格序列进行稳定处理和生成过大资产所需的大量手动干预阻碍了更广泛的采用。在本文中,我们提出了一种名为DualGS的新型基于高斯的方法,用于实时和高保真度地播放复杂人类表现,具有出色的压缩比。DualGS的关键思想是使用相应的皮肤和关节高斯分别表示运动和外观。这种明确的解耦可以显著减少运动冗余并增强时间上的连贯性。我们首先初始化DualGS,并将皮肤高斯锚定到第一帧的关节高斯。随后,我们采用一种逐帧人类表现建模的粗到细训练策略。它包括一个用于整体运动预测的粗对齐阶段,以及一个用于稳健跟踪和高保真度渲染的细粒度优化。为了将体积视频无缝集成到虚拟现实环境中,我们使用熵编码高效压缩运动,并使用编解码器压缩外观,同时结合一个持久的码书。我们的方法实现了高达120倍的压缩比,每帧仅需要约350KB的存储空间。我们通过在虚拟现实头显上进行逼真的自由视角体验,展示了我们的表示方法的有效性,使用户可以沉浸观看表演者的演奏,并感受到演奏者指尖的节奏。
在现代社会中,音频恢复变得越来越重要,这不仅是因为先进的播放设备带来了高质量听觉体验的需求,也因为生成式音频模型的不断增强需要高保真音频。通常,音频恢复被定义为从受损输入中预测无失真音频的任务,通常使用 GAN 框架进行训练,以平衡感知和失真。由于音频退化主要集中在中高频范围,特别是由于编解码器的原因,一个关键挑战在于设计一个生成器,能够保留低频信息同时准确重建高质量的中高频内容。受高采样率音乐分离、语音增强和音频编解码模型的最新进展启发,我们提出了 Apollo,这是一个专为高采样率音频恢复而设计的生成模型。Apollo 使用显式频带分割模块来建模不同频段之间的关系,从而实现更连贯和更高质量的恢复音频。在 MUSDB18-HQ 和 MoisesDB 数据集上进行评估,Apollo 在各种比特率和音乐流派中始终优于现有的 SR-GAN 模型,特别擅长处理涉及多种乐器和人声混合的复杂场景。Apollo 显著提高了音乐恢复质量,同时保持了计算效率。Apollo 的源代码可在 https://github.com/JusperLee/Apollo 上公开获取。
最近生成模型的进展彻底改变了图像生成和编辑,使这些任务对非专家也变得可行。本文着重于局部图像编辑,特别是向模糊指定区域添加新内容的任务。现有方法通常需要精确的蒙版或详细描述位置,这可能繁琐且容易出错。我们提出Click2Mask,一种新颖方法,通过仅需要单个参考点(除了内容描述)简化局部编辑过程。在 Blended Latent Diffusion(BLD)过程中,通过基于 CLIP 的蒙版语义损失引导,围绕该点动态增长蒙版。Click2Mask克服了基于分割和依赖微调的方法的局限,提供了更加用户友好和上下文准确的解决方案。我们的实验表明,Click2Mask不仅减少了用户工作量,而且在人类判断和自动指标方面,与最先进方法相比,提供了竞争力强或更优的局部图像操作结果。关键贡献包括简化用户输入、能够自由添加不受现有分割约束的对象,以及我们动态蒙版方法在其他编辑方法中的整合潜力。