每日精选AI研究论文及翻译
分割任意物体模型(SAM)已经成为一种强大的零样本图像分割模型,利用诸如点之类的交互提示来生成蒙版。本文介绍了SAM-PT,这是一种将SAM的能力扩展到跟踪和分割动态视频中任何物体的方法。SAM-PT利用稳健且稀疏的点选择和传播技术进行蒙版生成,表明基于SAM的分割跟踪器可以在流行的视频对象分割基准上取得强大的零样本性能,包括DAVIS、YouTube-VOS和MOSE。与传统的以对象为中心的蒙版传播策略相比,我们独特地使用点传播来利用与对象语义无关的局部结构信息。我们通过在零样本开放世界未知视频对象(UVO)基准上进行直接评估,突出了基于点的跟踪的优点。为了进一步改进我们的方法,我们利用K-Medoids聚类进行点初始化,并跟踪正负点以清晰区分目标对象。我们还采用多次蒙版解码传递进行蒙版细化,并设计了一种点重新初始化策略以提高跟踪精度。我们的代码集成了不同的点跟踪器和视频分割基准,并将在https://github.com/SysCV/sam-pt 上发布。
最近的大规模文本引导扩散模型提供了强大的图像生成能力。目前,人们正在大力努力实现使用文本对这些图像进行修改,以提供直观和多功能的编辑方式。然而,由于编辑技术的固有特性涉及保留原始图像的某些内容,编辑对这些生成模型来说是困难的。相反,在基于文本的模型中,即使对文本提示进行轻微修改,也经常会导致完全不同的结果,使得准确对应用户意图的一次性生成变得极具挑战性。此外,要使用这些最先进工具编辑真实图像,必须首先将图像反转为预训练模型的领域,这会影响编辑质量和延迟。在这份探索性报告中,我们提出了LEDITS - 一种结合了适用于真实图像编辑的Edit Friendly DDPM反转技术和语义引导的轻量级方法,从而将语义引导扩展到真实图像编辑,同时利用DDPM反转的编辑能力。这种方法实现了多功能的编辑,包括微妙和广泛的修改,以及构图和风格的变化,而无需优化或对架构进行扩展。
生成式人工智能在计算机视觉领域取得了重大进展,特别是在基于文本描述的图像/视频合成方面。尽管取得了进展,但在生成以人类为中心的内容,如舞蹈合成方面仍然具有挑战性。现有的舞蹈合成方法在合成内容与真实舞蹈场景之间存在困难。本文中,我们定义了一个新的问题设置:指代人类舞蹈生成,重点关注具有三个重要属性的真实舞蹈场景:(i)忠实性:合成应保留参考图像中的人物主体和背景的外观,并精确遵循目标姿势;(ii)泛化能力:模型应该能够泛化到未见过的人物主体、背景和姿势;(iii)组合性:应允许来自不同来源的已见/未见人物主体、背景和姿势的组合。为了解决这些挑战,我们引入了一种新颖的方法DISCO,其中包括一种新颖的模型架构,具有解耦控制以提高舞蹈合成的忠实性和组合性,以及一种有效的人类属性预训练,以更好地泛化到未见过的人类。广泛的定性和定量结果表明,DISCO能够生成具有多样外观和灵活动作的高质量人类舞蹈图像和视频。代码、演示、视频和可视化可在以下网址找到:https://disco-dance.github.io/。
大型语言模型(LLMs)的出现彻底改变了自然语言处理,使得生成连贯且上下文相关的文本成为可能。随着LLMs越来越多地驱动会话代理,这些模型中蕴含的合成个性,由于它们在大量人类生成数据上训练,引起了人们的关注。由于个性是决定沟通效果的重要因素,我们提出了一种全面的方法,用于进行经过验证的心理测量测试,并量化、分析和塑造从广泛使用的LLMs生成的文本中展现的个性特征。我们发现:1)在某些LLMs的输出中模拟的个性(在特定提示配置下)是可靠且有效的;2)LLM模拟的个性的可靠性和有效性证据对于更大和经过指导微调的模型更为强大;3)LLMs输出中的个性可以沿着期望的维度塑造,以模仿特定的个性特征。我们还讨论了我们的测量和塑造框架的潜在应用和伦理影响,特别是关于负责任地使用LLMs的问题。
近年来,视觉-语言模型的进展彻底改变了多模态理解,但它们是否具备理解生成图像的能力仍不清楚。与真实数据相比,合成图像在内容和风格上表现出更高程度的多样性,这给模型完全理解带来了重大困难。为此,我们提出了一个大规模数据集 JourneyDB,用于生成图像的多模态视觉理解。我们精心策划的数据集包含了 400 万个多样且高质量的生成图像,以及用于生成它们的文本提示。我们进一步设计了 4 个基准来量化生成图像理解的性能,包括内容和风格解释。这些基准包括提示反演、风格检索、图像字幕和视觉问答。最后,我们评估了当前最先进的多模态模型在应用于 JourneyDB 时的性能,并对它们在生成内容理解方面的优势和局限性进行了深入分析。我们希望提出的数据集和基准能促进生成内容理解领域的研究。该数据集将在 https://journeydb.github.io 上提供。
本文介绍了MVDiffusion,一种简单而有效的多视图图像生成方法,适用于存在像素对应关系的情况,例如透视裁剪的全景图或给定几何信息(深度图和姿势)的多视图图像。与先前依赖迭代图像扭曲和修补的模型不同,MVDiffusion同时生成所有图像,具有全局意识,包括高分辨率和丰富内容,有效解决了先前模型中普遍存在的误差累积问题。MVDiffusion特别融合了一种对应关系感知注意力机制,实现有效的跨视图交互。该机制支撑三个关键模块:1)生成模块生成低分辨率图像同时保持全局对应关系,2)插值模块增加图像之间的空间覆盖,3)超分辨率模块将图像升级为高分辨率输出。在全景图像方面,MVDiffusion能够生成高达1024x1024像素的高分辨率逼真图像。对于几何条件下的多视图图像生成,MVDiffusion展示了第一个能够生成场景网格纹理地图的方法。项目页面位于https://mvdiffusion.github.io。
最近,基于学习的单目动作捕捉方法通过学习以数据驱动的方式进行回归,展现出了令人期待的结果。然而,由于数据收集和网络设计方面的挑战,现有解决方案仍然难以实现在世界空间准确实时的全身捕捉。在这项工作中,我们提出了一种顺序的代理到动作学习方案,结合了一个包含2D骨架序列和世界空间中的3D旋转动作的代理数据集。这种代理数据使我们能够构建一个基于学习的网络,具有准确的全身监督,同时也缓解了泛化问题。为了更准确和物理上合理的预测,我们在网络中提出了一个考虑接触的神经运动下降模块,使其能够意识到脚地接触和与代理观察的运动错位。此外,我们在网络中共享身体-手部上下文信息,以更好地恢复与全身模型兼容的手腕姿势。通过提出的基于学习的解决方案,我们展示了首个具有世界空间中合理脚地接触的实时单目全身捕捉系统。更多视频结果可在我们的项目页面找到:https://liuyebin.com/proxycap。
预训练语言模型(PLMs)如今是自然语言处理的主要模型。尽管它们在下游任务中表现出色,但将PLMs应用于新语言可能会很困难,这是使其能够普遍可用的一个障碍。先前的研究表明,通过为新语言学习新的嵌入层可以解决这个问题,但这样做既数据又计算效率低下。我们建议在预训练过程中使用主动遗忘机制,作为创建能够快速适应新语言的PLMs的简单方法。具体而言,在预训练过程中每隔K次更新重置嵌入层,我们鼓励PLM在有限次更新内改善学习新嵌入的能力,类似于元学习效果。通过对RoBERTa进行实验,我们发现采用我们遗忘机制预训练的模型不仅在语言适应过程中表现出更快的收敛速度,而且在数据稀缺情况下表现优于标准模型,尤其是对于与英语相距较远的语言。
大型语言模型在少样本自然语言处理任务上展现出令人印象深刻的结果。然而,这些模型需要大量内存和计算资源。元训练使人能够以通用领域和任务无关的方式利用较小的模型进行少样本泛化;然而,仅使用这些方法会导致模型可能没有足够的参数化或知识来快速适应各种任务。为了克服这个问题,我们提出了带演示检索的元训练,其中我们使用密集通道检索器来检索与每个示例语义相似的标记演示,以获得更多样化的监督。通过将外部知识与模型参数分离,我们可以使用元训练来训练参数高效的模型,在更多任务上实现良好的泛化。我们从UnifiedQA和CrossFit构建了一个元训练集,并提出了一个基于UnifiedQA任务的演示库。据我们所知,我们的工作是首个将检索与元训练相结合,使用DPR模型检索演示,并同时利用来自许多任务的演示,而不是随机从目标任务的训练集中抽样演示。我们的方法在问答、自然语言推理和文本分类任务(包括SQuAD、QNLI和TREC)上胜过各种有针对性的参数高效和检索增强的少样本方法。我们的方法可以在单个GPU上快速进行元训练和微调。
我们的目标是使机器人能够遵循自然语言指令,比如“把毛巾放在微波炉旁边”。然而,获取大量标记数据,即包含用语言指令标记的任务演示的数据,是困难的。相比之下,获取响应图像目标的策略要容易得多,因为任何自主试验或演示都可以事后用其最终状态作为目标进行标记。在这项工作中,我们提出了一种方法,利用少量语言数据,结合图像和目标来调节策略。先前的工作已经在这方面取得了进展,使用视觉语言模型或联合训练语言目标调节的策略,但迄今为止,这两种方法都没有有效地扩展到真实世界的机器人任务,而无需大量人工注释。我们的方法通过学习一个从标记数据中对齐语言的嵌入,实现了在真实世界中的稳健性能,这个嵌入将语言与目标图像对齐,而不是与指令对应的起始图像和目标图像之间的期望变化。然后我们在这个嵌入上训练一个策略:策略受益于所有未标记数据,但对齐的嵌入为语言提供了引导策略的接口。我们展示了在不同场景中进行各种操纵任务时的指令跟随,可以泛化到标记数据之外的语言指令。我们的方法的视频和代码可以在我们的网站上找到:http://tiny.cc/grif。
建模3D头像有益于各种应用场景,如增强现实/虚拟现实、游戏和拍摄。角色面孔作为头像的重要组成部分,为头像增添了显著的多样性和生动性。然而,构建3D角色面部模型通常需要使用商业工具进行大量工作,即使对于经验丰富的艺术家也是如此。各种现有的基于草图的工具未能支持业余用户建模多样化的面部形状和丰富的几何细节。本文介绍了SketchMetaFace - 一个针对业余用户设计的草图系统,可在几分钟内建模高保真的3D面部。我们精心设计了用户界面和底层算法。首先,采用了曲率感知笔画,以更好地支持雕刻面部细节的可控性。其次,考虑到将2D草图映射到3D模型的关键问题,我们开发了一种名为“隐式和深度引导网格建模”(IDGMM)的新颖基于学习的方法。它融合了网格、隐式和深度表示的优势,以实现高质量和高效率的结果。此外,为了进一步支持可用性,我们提出了一个由粗到细的2D草图界面设计和一个数据驱动的笔画建议工具。用户研究表明,我们的系统在易用性和视觉质量方面优于现有建模工具。实验分析还显示,IDGMM在精度和效率之间取得了更好的折衷。SketchMetaFace可在https://zhongjinluo.github.io/SketchMetaFace/ 上获得。