每日精选AI研究论文及翻译
尽管近年来基于单张图像重建衣着人体的研究取得了进展,但如何精确还原具有高细节层次的"不可见区域"仍是一个缺乏关注且尚未解决的难题。现有方法往往生成过度平滑的背面结构与模糊纹理。那么,如何从单张图像中有效捕捉个体的全部视觉属性,足以重建不可见区域(如背部)呢?受基础模型强大能力的启发,TeCH通过以下方式实现三维人体重建:1)利用服装解析模型和视觉问答(VQA)自动生成的描述性文本提示(如服装款式、颜色、发型);2)采用经过个性化微调的文本到图像扩散模型(T2I)来学习"难以言述"的外观特征。为低成本呈现高分辨率三维衣着人体,我们提出基于DMTet的混合三维表征,该表征由显式人体形状网格和隐式距离场构成。在描述性提示与个性化T2I扩散模型的共同引导下,通过基于原始观测的多视角分数蒸馏采样(SDS)和重建损失,对三维人体的几何结构与纹理进行优化。TeCH能够生成具有连贯精细纹理及完整身体几何细节的高保真三维衣着人体。定量与定性实验表明,TeCH在重建精度与渲染质量方面均优于现有最优方法。相关代码将在https://huangyangyi.github.io/tech 公开供研究使用。
个性化文本生成是近年来备受关注的新兴研究领域。该方向的大多数研究通过设计定制化特征或模型聚焦于特定领域。本文提出了一种基于大语言模型(LLM)的通用个性化文本生成方法。受写作教育实践的启发,我们开发了一个多阶段、多任务的框架来训练大语言模型实现个性化生成。在写作教学中,基于素材的写作任务常被分解为多个步骤,包括信息查找、评估、总结、整合与融合。类似地,我们的个性化文本生成方法包含检索、排序、摘要、整合和生成多个阶段。此外,我们引入了多任务学习机制以进一步提升模型生成能力,其灵感来源于教育领域的观察——学生的阅读能力与写作水平往往具有相关性。我们在三个涵盖不同代表性领域的公开数据集上评估了该方法,实验结果表明相较于多种基线模型,本方法取得了显著提升。
随着扩散模型的兴起,文本到视频生成技术近期备受关注。但该领域存在一个重要瓶颈:生成视频常出现闪烁伪影和失真现象。本研究提出双流扩散网络(DSDN),通过增强内容变化的连贯性来提升视频生成质量。特别设计的视频内容流与运动流不仅能在各自独立空间运行,分别生成个性化视频内容及动态变化,还通过我们设计的跨Transformer交互模块实现内容域与运动域的对齐,从而提升生成视频的流畅度。此外,我们引入运动分解器与组合器来优化视频运动处理。定性与定量实验表明,本方法能生成令人惊叹的连续视频,且显著减少闪烁现象。
近年来,可控视频生成技术备受关注,但始终存在两大局限:其一,现有研究多集中于文本、图像或轨迹等单一控制方式,导致难以实现视频内容的细粒度控制;其二,轨迹控制研究尚处于早期阶段,多数实验仅在Human3.6M等简单数据集上进行,这限制了模型处理开放域图像及复杂曲线轨迹的能力。本文提出DragNUWA——一个基于扩散模型的开放域视频生成框架。针对现有控制粒度不足的问题,我们创新性地融合文本、图像与轨迹信息,从语义、空间和时间三个维度实现视频内容的精细化控制。为解决开放域轨迹控制的局限性,我们提出三阶段轨迹建模方案:通过轨迹采样器实现任意轨迹的开放域控制,采用多尺度融合技术适配不同粒度轨迹,并设计自适应训练策略确保轨迹跟踪的视频连贯性。实验证明DragNUWA在视频生成细粒度控制方面具有显著优势。项目主页详见:https://www.microsoft.com/en-us/research/project/dragnuwa/
自监督与语言监督的图像模型蕴含了对泛化至关重要的世界知识。然而许多机器人任务需要精细的三维几何理解,而这正是二维图像特征所欠缺的。本研究通过利用蒸馏特征场将精确的三维几何与二维基础模型的丰富语义相结合,弥合了机器人操作领域的二维至三维鸿沟。我们提出一种小样本学习方法,用于六自由度抓取与放置任务,该方法利用这些强大的空间与语义先验知识,实现对未知物体的野外泛化。通过从视觉语言模型CLIP中蒸馏特征,我们提出了一种基于自由文本自然语言指定待操作新物体的方法,并展示了其对未见表达方式和新型物体类别的泛化能力。
当前针对非刚性变形物体的四维重建方法主要侧重于新视角合成,而忽略了对应关系。然而,时间一致性能够支持三维编辑、运动分析或虚拟资产创建等高级下游任务。我们提出SceNeRFlow方法,以实现对通用非刚性场景的时间一致性重建。我们的动态神经辐射场方法以多视角RGB视频和来自静态相机的背景图像作为输入,并基于已知相机参数,以在线方式重建预估的几何与外观标准模型的形变过程。由于该标准模型具有时间不变性,即使对于长时程、大范围的运动也能获得对应关系。我们采用神经场景表征来参数化方法的各个组件。与先前的动态神经辐射场方法类似,我们采用逆向形变模型。研究发现需对该模型进行重要调整以处理较大幅度运动:我们将形变分解为强正则化的粗粒度分量和弱正则化的细粒度分量,其中粗粒度分量还将形变场扩展至物体周围空间,从而实现跨时间跟踪。实验表明,与仅能处理小幅运动的现有工作不同,我们的方法能够实现演播室尺度运动的重建。