每日精选AI研究论文及翻译
尽管最近在从单个图像重建穿着衣服的人方面取得了研究进展,但准确恢复具有高级细节的“未见区域”仍然是一个缺乏关注且尚未解决的挑战。现有方法通常会生成具有模糊纹理的过度平滑的背面表面。但如何有效地从单个图像中捕捉个体的所有视觉属性,以便重建未见区域(例如背面视图)呢?受基础模型强大性的启发,TeCH通过以下方式重建3D人体:1)利用通过服装解析模型和视觉问答(VQA)自动生成的描述性文本提示(例如服装、颜色、发型),2)利用个性化微调的文本到图像扩散模型(T2I)学习“难以描述”的外观。为了以较低成本表示高分辨率的穿着衣服的3D人体,我们提出了基于DMTet的混合3D表示,其中包括显式身体形状网格和隐式距离场。在描述性提示+个性化T2I扩散模型的指导下,通过多视图分数蒸馏采样(SDS)和基于原始观察的重建损失,优化了3D人体的几何和纹理。TeCH生成具有一致且精致纹理以及详细全身几何的高保真度3D穿着衣服的人体。定量和定性实验表明,TeCH在重建准确性和渲染质量方面优于现有方法。该代码将公开提供供研究目的使用,网址为https://huangyangyi.github.io/tech。
个性化文本生成是一个新兴的研究领域,近年来引起了广泛关注。在这个方向上的大多数研究都集中在通过设计定制特征或模型来专注于特定领域。在这项工作中,我们提出了一种使用大型语言模型(LLMs)进行个性化文本生成的通用方法。受到写作教育实践的启发,我们开发了一个多阶段和多任务的框架,用于教导LLMs进行个性化生成。在写作指导中,从来源撰写的任务通常被分解为涉及查找、评估、总结、综合和整合信息的多个步骤。类似地,我们的个性化文本生成方法包括多个阶段:检索、排名、总结、综合和生成。此外,我们引入了一个多任务设置,帮助模型进一步提高其生成能力,这受到了教育中观察到的一个现象的启发,即学生的阅读能力和写作能力通常是相关的。我们在三个公共数据集上评估了我们的方法,每个数据集涵盖了不同和具有代表性的领域。我们的结果显示,相对于各种基线,我们取得了显著的改进。
随着新兴的扩散模型,最近,文本到视频生成引起了越来越多的关注。但其中一个重要瓶颈是,生成的视频往往会出现一些闪烁和伪影。在这项工作中,我们提出了一种双流扩散网络(DSDN),以提高生成视频中内容变化的一致性。特别是,设计的两个扩散流,视频内容和运动分支,不仅可以在它们各自的私有空间中分别运行,以生成个性化视频变化和内容,而且通过利用我们设计的交叉变换器交互模块,在内容和运动领域之间实现良好对齐,从而有利于生成视频的平滑度。此外,我们还引入了运动分解器和合成器,以促进对视频运动的操作。定性和定量实验表明,我们的方法能够生成具有更少闪烁的惊人连续视频。
近年来,可控视频生成受到了广泛关注。然而,仍然存在两个主要限制:首先,大多数现有作品集中在文本、图像或基于轨迹的控制上,导致无法实现视频的精细控制。其次,轨迹控制研究仍处于早期阶段,大多数实验都是在诸如Human3.6M之类的简单数据集上进行的。这种限制限制了模型处理开放域图像并有效处理复杂曲线轨迹的能力。在本文中,我们提出了DragNUWA,这是一种基于扩散的开放域视频生成模型。为了解决现有作品中控制粒度不足的问题,我们同时引入文本、图像和轨迹信息,从语义、空间和时间角度提供对视频内容的精细控制。为了解决当前研究中有限的开放域轨迹控制问题,我们提出了三个方面的轨迹建模:轨迹采样器(TS)实现任意轨迹的开放域控制,多尺度融合(MF)控制不同粒度的轨迹,自适应训练(AT)策略生成遵循轨迹的一致视频。我们的实验证实了DragNUWA的有效性,展示了其在视频生成中精细控制方面的卓越性能。主页链接为https://www.microsoft.com/en-us/research/project/dragnuwa/
自监督和语言监督的图像模型包含丰富的世界知识,对于泛化至关重要。然而,许多机器人任务需要对3D几何有详细的理解,而这在2D图像特征中通常缺乏。本研究通过利用提取的特征场,将准确的3D几何与来自2D基础模型的丰富语义相结合,以弥合机器人操作中的2D到3D差距。我们提出了一种用于6自由度抓取和放置的少样本学习方法,利用这些强大的空间和语义先验知识,实现对未见物体的野外泛化。利用从视觉语言模型CLIP中提取的特征,我们提出了一种通过自由文本自然语言指定新颖物体进行操作的方法,并展示了其泛化到未见表达和新类别物体的能力。
现有的用于对一般非刚性变形物体进行4D重建的方法侧重于新视角合成,忽略了对应关系。然而,时间一致性可以实现高级下游任务,如3D编辑、运动分析或虚拟资产创建。我们提出了SceNeRFlow来以一致的时间方式重建一般非刚性场景。我们的动态NeRF方法使用多视角RGB视频和静态摄像机拍摄的背景图像作为输入。然后,以在线方式重建几何和外观的估计规范模型的变形。由于这个规范模型是时间不变的,我们即使对于长期、长距离的运动也能获得对应关系。我们采用神经场景表示来参数化我们方法的组件。与先前的动态NeRF方法一样,我们使用了反向变形模型。我们发现这个模型的非平凡调整对于处理更大的运动是必要的:我们将变形分解为强正则化的粗糙组件和弱正则化的细致组件,其中粗糙组件还将变形场延伸到物体周围的空间,从而实现随时间的跟踪。我们通过实验证明,与仅处理小运动的先前工作不同,我们的方法能够重建大规模运动。