每日精选AI研究论文及翻译
随着人工智能代理和元宇宙的出现,定制和富有表现力的3D角色需求不断增长,但使用传统计算机图形工具创建3D角色是一项复杂且耗时的任务。为了解决这些挑战,我们提出了一个名为Make-A-Character(Mach)的用户友好框架,用于根据文本描述创建逼真的3D头像。该框架利用大型语言和视觉模型的能力进行文本意图理解和中间图像生成,然后经过一系列面向人类的视觉感知和3D生成模块。我们的系统为用户提供了一种直观的方法,可以在2分钟内打造可控、逼真、完整的3D角色,满足其期望,同时还能轻松与现有计算机图形流程集成,实现动态表现。欲了解更多信息,请访问项目页面:https://human3daigc.github.io/MACH/。
基于参考的对象分割任务,即指代图像分割(RIS)、少样本图像分割(FSS)、指代视频对象分割(RVOS)和视频对象分割(VOS),旨在利用语言或标注掩模作为参考来分割特定对象。尽管各自领域取得了显著进展,但当前方法是专门针对特定任务设计和发展的,朝着不同方向发展,这阻碍了这些任务的多任务能力的激活。在这项工作中,我们结束当前的碎片化局面,提出UniRef++来统一这四个基于参考的对象分割任务,采用单一架构。我们方法的核心是提出的UniFusion模块,用于执行多路融合,以处理不同任务相对于它们指定的参考的情况。然后采用统一的Transformer架构来实现实例级别的分割。通过统一的设计,UniRef++可以在广泛的基准上进行联合训练,并可以通过指定相应的参考在运行时灵活完成多个任务。我们在各种基准上评估了我们的统一模型。大量实验结果表明,我们提出的UniRef++在RIS和RVOS上实现了最先进的性能,并且在FSS和VOS上与参数共享网络具有竞争力。此外,我们展示了提出的UniFusion模块可以轻松地整合到当前先进的基础模型SAM中,并通过参数高效的微调获得令人满意的结果。代码和模型可在https://github.com/FoundationVision/UniRef找到。
从单视角视频重建人体在虚拟现实领域发挥着关键作用。一种普遍的应用场景需要快速重建高保真度的3D数字人类,同时确保实时渲染和交互。现有方法通常难以同时满足这两个要求。本文介绍了Human101,这是一个新颖的框架,能够通过在100秒内训练3D高斯模型并以100+ FPS渲染,生成高保真度的动态3D人体重建。我们的方法利用了3D高斯飘落的优势,提供了对3D人体的明确高效表示。Human101与基于NeRF的先前流程有所不同,它巧妙地应用了以人为中心的前向高斯动画方法来变形3D高斯模型的参数,从而提高了渲染速度(即以惊人的60+ FPS渲染1024分辨率图像,以及以100+ FPS渲染512分辨率图像)。实验结果表明,我们的方法明显超越了当前方法,帧速率增加了多达10倍,并提供了可比较或更优质的渲染质量。代码和演示将在https://github.com/longxiang-ai/Human101发布。
商业和开源扩散模型(DMs)在文本到图像生成中的普遍使用促使风险缓解,以防止不良行为。学术界现有的概念擦除方法都基于完全参数或基于规范的微调,我们观察到以下问题:1)生成向侵蚀的变化:目标消除期间的参数漂移导致变化和潜在变形在所有生成中,甚至以不同程度侵蚀其他概念,这在多概念擦除时更为明显;2)转移能力不足和部署效率低:先前的特定于模型的擦除阻碍了概念的灵活组合和向其他模型的无需训练的转移,导致线性成本随着部署场景的增加而增长。为实现非侵入性、精确、可定制和可转移的消除,我们将我们的擦除框架基于一维适配器,一次从大多数DMs中擦除多个概念,适用于各种擦除应用。概念半透膜结构被注入为膜(SPM)到任何DM中学习有针对性的擦除,同时通过一种新颖的潜在锚定微调策略有效地缓解了变化和侵蚀现象。一旦获得,SPMs可以灵活组合并即插即用于其他DMs,无需特定的重新调整,实现及时和高效地适应各种情景。在生成过程中,我们的促进传输机制动态调节每个SPM的渗透性以响应不同的输入提示,进一步减少对其他概念的影响。在大约40个概念、7个DMs和4个擦除应用中的定量和定性结果已经证明了SPM的卓越擦除效果。我们的代码和预调整的SPMs将在项目页面https://lyumengyao.github.io/projects/spm 上提供。