每日精选AI研究论文及翻译
分段任意模型(SAM)已成为一种强大的零样本图像分割模型,它通过点等交互式提示来生成掩码。本文提出SAM-PT方法,将SAM的能力扩展至动态视频中的目标跟踪与分割。SAM-PT采用鲁棒的稀疏点选择与传播技术进行掩码生成,实验表明基于SAM的分割跟踪器在DAVIS、YouTube-VOS和MOSE等主流视频目标分割基准上能实现优异的零样本性能。相较于传统以目标为中心的掩码传播策略,我们创新性地通过点传播技术利用与目标语义无关的局部结构信息。通过在零样本开放世界未识别视频对象(UVO)基准上的直接评估,我们凸显了基于点跟踪方法的优势。为进一步优化方案,我们采用K-Medoids聚类进行点初始化,同时跟踪正负样本点以清晰区分目标对象。此外,通过多轮掩码解码实现掩码优化,并设计点重初始化策略提升跟踪精度。我们的代码整合了多种点跟踪器与视频分割基准,将在https://github.com/SysCV/sam-pt开源。
近期的大规模文本引导扩散模型展现出强大的图像生成能力。当前研究重点在于仅通过文本实现图像修改,以提供直观且灵活的编辑方式。然而,由于编辑技术需保留原始图像特定内容的内在特性,这类生成模型的编辑任务面临挑战。反观文本驱动模型,即使对提示词进行微小调整也常导致生成结果截然不同,这使得精准实现符合用户意图的一次性生成变得极为困难。此外,要利用这些前沿工具编辑真实图像,需先将图像反演至预训练模型的域空间——这不仅会影响编辑质量,还会增加处理延迟。在本探索性报告中,我们提出LEDITS:一种结合轻量级真实图像编辑的方法,通过将"编辑友好型DDPM反演"技术与语义引导相结合,将语义引导扩展至真实图像编辑领域,同时充分发挥DDPM反演的编辑能力。该方法无需优化或扩展模型架构,即可实现从细微调整到大幅改动,乃至构图与风格变化的多样化编辑效果。
生成式AI在计算机视觉领域取得了显著进展,尤其在基于文本描述的图像/视频合成方面。尽管如此,在生成以人为中心的内容(如舞蹈合成)时仍面临挑战。现有舞蹈合成方法难以弥合合成内容与真实舞蹈场景之间的差距。本文提出新问题设定:指代式人类舞蹈生成,该设定聚焦具有三个关键特性的真实舞蹈场景:(i)忠实性:合成内容需保留参考图像中人物前景与背景的外观特征,并精确遵循目标姿态;(ii)泛化性:模型应能泛化至未见过的对象、背景及姿态;(iii)组合性:需支持对不同来源的已见/未见对象、背景及姿态进行组合。针对这些挑战,我们提出创新方法DISCO,其创新性包括:采用解耦控制的新型模型架构以提升舞蹈合成的忠实度与组合性,以及通过高效的人物属性预训练增强对未见对象的泛化能力。大量定性与定量结果表明,DISCO能生成具有多样化外观和灵活运动的高质量人类舞蹈图像及视频。代码、演示、视频及可视化结果详见:https://disco-dance.github.io/。
大型语言模型(LLM)的出现彻底改变了自然语言处理领域,使其能够生成连贯且符合语境的文本。随着LLM日益成为对话系统的核心驱动力,这些模型通过海量人类生成数据训练所内嵌的合成人格特质引发关注。鉴于人格是决定沟通效能的关键因素,我们提出一套综合方法,通过实施经过验证的心理测量测试,对主流LLM生成文本中呈现的人格特质进行量化、分析与塑造。研究发现:1)特定提示配置下,部分LLM输出中模拟的人格具有可靠性与有效性;2)规模更大且经过指令微调的模型,其人格模拟的可靠性与有效性证据更为充分;3)LLM输出的人格可沿特定维度进行塑造,以模拟目标人格特征。本文还探讨了该测量与塑造框架的潜在应用及伦理影响,特别是在LLM的责任使用方面。
尽管视觉语言模型的最新进展已彻底改变多模态理解领域,但其是否具备理解生成图像的能力仍不明确。与真实数据相比,合成图像在内容与风格上呈现出更高程度的多样性,这给模型实现完整理解带来了显著挑战。为此,我们推出大规模数据集JourneyDB,专门用于生成图像的多模态视觉理解。该精选数据集涵盖400万张多样化且高质量的生成图像,并附有对应的生成文本提示。我们进一步设计四项基准测试,从内容与风格解读两个维度量化生成图像理解性能,包括提示词反推、风格检索、图像描述和视觉问答。最后,我们评估了当前最先进多模态模型在JourneyDB上的表现,并深入分析了它们在生成内容理解方面的优势与局限。我们希望所提出的数据集与基准测试能推动生成式内容理解领域的研究。数据集将在https://journeydb.github.io开放获取。
本文提出MVDiffusion——一种针对像素级对应关系场景(如全景图像透视裁剪或给定几何信息的多视角图像)的简洁高效多视图生成方法。与依赖迭代图像变形和修复的现有模型不同,MVDiffusion通过全局感知并行生成所有图像,兼具高分辨率和丰富内容,有效解决了传统模型存在的误差累积问题。该方法创新性地引入对应关系感知注意力机制,实现有效的跨视图交互。该机制支撑三个核心模块:1)生成模块,在保持全局对应关系的同时生成低分辨率图像;2)插值模块,对图像间空间覆盖进行稠密化处理;3)超分辨率模块,将图像提升至高分辨率输出。在全景图像生成方面,MVDiffusion可生成高达1024×1024像素的高分辨率逼真图像。在几何条件约束的多视角图像生成任务中,该方法首次实现了场景网格纹理贴图的生成能力。项目页面详见https://mvdiffusion.github.io。
基于学习的单目运动捕捉方法近期通过数据驱动的回归学习展现出良好效果。然而受限于数据采集与网络设计的挑战,现有方案难以在实现世界坐标系下精准捕捉的同时达到实时全身运动重建。本研究提出了一种序列化代理到动作的学习框架,并构建了包含世界坐标系下二维骨骼序列与三维旋转运动的代理数据集。此类代理数据使我们能够构建具有精确全身监督的学习网络,同时缓解泛化问题。为实现更精准且物理合理的预测,我们在网络中引入了接触感知的神经运动优化模块,使其能够感知足部与地面接触状态以及与代理观测数据的运动偏差。此外,我们通过网络中的身体-手部上下文信息共享,实现了与全身模型更兼容的手腕姿态恢复。凭借所提出的基于学习的解决方案,我们首次实现了具有合理足地接触的世界坐标系实时单目全身运动捕捉系统。更多视频结果请访问项目页面:https://liuyebin.com/proxycap。
大型语言模型在少样本自然语言处理任务上展现出令人印象深刻的结果。然而,这些模型需要大量内存和计算资源。元训练使人能够以通用领域和任务无关的方式利用较小的模型进行少样本泛化;然而,仅使用这些方法会导致模型可能没有足够的参数化或知识来快速适应各种任务。为了克服这个问题,我们提出了带演示检索的元训练,其中我们使用密集通道检索器来检索与每个示例语义相似的标记演示,以获得更多样化的监督。通过将外部知识与模型参数分离,我们可以使用元训练来训练参数高效的模型,在更多任务上实现良好的泛化。我们从UnifiedQA和CrossFit构建了一个元训练集,并提出了一个基于UnifiedQA任务的演示库。据我们所知,我们的工作是首个将检索与元训练相结合,使用DPR模型检索演示,并同时利用来自许多任务的演示,而不是随机从目标任务的训练集中抽样演示。我们的方法在问答、自然语言推理和文本分类任务(包括SQuAD、QNLI和TREC)上胜过各种有针对性的参数高效和检索增强的少样本方法。我们的方法可以在单个GPU上快速进行元训练和微调。
预训练语言模型(PLMs)如今是自然语言处理的主要模型。尽管它们在下游任务中表现出色,但将PLMs应用于新语言可能会很困难,这是使其能够普遍可用的一个障碍。先前的研究表明,通过为新语言学习新的嵌入层可以解决这个问题,但这样做既数据又计算效率低下。我们建议在预训练过程中使用主动遗忘机制,作为创建能够快速适应新语言的PLMs的简单方法。具体而言,在预训练过程中每隔K次更新重置嵌入层,我们鼓励PLM在有限次更新内改善学习新嵌入的能力,类似于元学习效果。通过对RoBERTa进行实验,我们发现采用我们遗忘机制预训练的模型不仅在语言适应过程中表现出更快的收敛速度,而且在数据稀缺情况下表现优于标准模型,尤其是对于与英语相距较远的语言。
我们的目标是使机器人能够遵循自然语言指令,比如“把毛巾放在微波炉旁边”。然而,获取大量标记数据,即包含用语言指令标记的任务演示的数据,是困难的。相比之下,获取响应图像目标的策略要容易得多,因为任何自主试验或演示都可以事后用其最终状态作为目标进行标记。在这项工作中,我们提出了一种方法,利用少量语言数据,结合图像和目标来调节策略。先前的工作已经在这方面取得了进展,使用视觉语言模型或联合训练语言目标调节的策略,但迄今为止,这两种方法都没有有效地扩展到真实世界的机器人任务,而无需大量人工注释。我们的方法通过学习一个从标记数据中对齐语言的嵌入,实现了在真实世界中的稳健性能,这个嵌入将语言与目标图像对齐,而不是与指令对应的起始图像和目标图像之间的期望变化。然后我们在这个嵌入上训练一个策略:策略受益于所有未标记数据,但对齐的嵌入为语言提供了引导策略的接口。我们展示了在不同场景中进行各种操纵任务时的指令跟随,可以泛化到标记数据之外的语言指令。我们的方法的视频和代码可以在我们的网站上找到:http://tiny.cc/grif。
建模3D头像有益于各种应用场景,如增强现实/虚拟现实、游戏和拍摄。角色面孔作为头像的重要组成部分,为头像增添了显著的多样性和生动性。然而,构建3D角色面部模型通常需要使用商业工具进行大量工作,即使对于经验丰富的艺术家也是如此。各种现有的基于草图的工具未能支持业余用户建模多样化的面部形状和丰富的几何细节。本文介绍了SketchMetaFace - 一个针对业余用户设计的草图系统,可在几分钟内建模高保真的3D面部。我们精心设计了用户界面和底层算法。首先,采用了曲率感知笔画,以更好地支持雕刻面部细节的可控性。其次,考虑到将2D草图映射到3D模型的关键问题,我们开发了一种名为“隐式和深度引导网格建模”(IDGMM)的新颖基于学习的方法。它融合了网格、隐式和深度表示的优势,以实现高质量和高效率的结果。此外,为了进一步支持可用性,我们提出了一个由粗到细的2D草图界面设计和一个数据驱动的笔画建议工具。用户研究表明,我们的系统在易用性和视觉质量方面优于现有建模工具。实验分析还显示,IDGMM在精度和效率之间取得了更好的折衷。SketchMetaFace可在https://zhongjinluo.github.io/SketchMetaFace/ 上获得。