每日精选AI研究论文及翻译
最近在文本到图像生成领域取得了显著进展,成功合成了在给定文本提示的条件下具有逼真人类照片。然而,现有的个性化生成方法无法同时满足高效率、有前景的身份(ID)保真度和灵活的文本可控性要求。在这项工作中,我们介绍了PhotoMaker,一种高效的个性化文本到图像生成方法,主要将任意数量的输入ID图像编码为一组ID嵌入以保留ID信息。这种嵌入作为统一的ID表示,不仅可以全面地封装相同输入ID的特征,还可以容纳不同ID的特征以供后续整合。这为更有趣且实际有价值的应用铺平了道路。此外,为了推动我们的PhotoMaker的训练,我们提出了一个面向ID的数据构建流水线来组装训练数据。在通过提议的流水线构建的数据集的滋养下,我们的PhotoMaker展示了比基于测试时微调的方法更好的ID保留能力,同时提供了显著的速度改进、高质量的生成结果、强大的泛化能力和广泛的应用范围。我们的项目页面位于https://photo-maker.github.io/。
合成语义感知、长期视角下的人-物体交互对于模拟逼真的人类行为至关重要。在这项工作中,我们解决了在3D场景中生成受语言描述引导的物体运动和人类运动的具有挑战性问题。我们提出了可控人-物体交互合成(CHOIS),这是一种方法,通过条件扩散模型同时生成物体运动和人类运动,给定语言描述、初始物体和人类状态,以及稀疏的物体航点。语言描述指导风格和意图,航点将运动与场景联系起来,并可以通过高级规划方法有效地提取。简单地应用扩散模型无法预测与输入航点对齐的物体运动,并且不能确保需要精确手-物体接触和地板支撑的交互的逼真性。为了克服这些问题,我们引入了物体几何损失作为额外监督,以改善生成的物体运动与输入物体航点之间的匹配。此外,我们设计了指导项,以在训练后的扩散模型的采样过程中强制执行接触约束。
从单个图像创建3D内容是一个长期存在但非常理想的任务。最近的进展引入了2D扩散先验,产生了合理的结果。然而,现有方法对于后续生成的使用来说还不够超现实主义,因为用户无法从完整范围查看、渲染和编辑生成的3D内容。为了解决这些挑战,我们引入了HyperDreamer,具有几个关键设计和吸引人的特性:1)可查看:360度网格建模与高分辨率纹理使得可以从完整的观察点范围创建视觉上引人注目的3D模型。2)可渲染:细粒度语义分割和数据驱动的先验被纳入作为指导,学习合理的反照率、粗糙度和镜面特性的材料,实现语义感知的任意材料估计。3)可编辑:对于生成的模型或他们自己的数据,用户可以通过几次点击交互地选择任何区域,并通过基于文本的指导高效地编辑纹理。大量实验证明了HyperDreamer在建模区域感知材料、具有高分辨率纹理和实现用户友好编辑方面的有效性。我们相信HyperDreamer有望推动3D内容创建的发展,并在各个领域找到应用。
近年来,大规模文本到视频(T2V)扩散模型在视觉质量、运动和时间一致性方面取得了巨大进展。然而,生成过程仍然是一个黑盒子,其中所有属性(例如外观、运动)都是联合学习和生成的,除了粗略的文本描述之外几乎没有精确的控制能力。受到图像动画的启发,该动画将视频解耦为具有相应运动的特定外观,我们提出了AnimateZero来揭示预训练的文本到视频扩散模型,即AnimateDiff,并为其提供更精确的外观和运动控制能力。对于外观控制,我们从文本到图像(T2I)生成中借用中间潜变量及其特征,以确保生成的第一帧与给定的生成图像相等。对于时间控制,我们用我们提出的位置校正窗口注意力替换原始T2V模型的全局时间注意力,以确保其他帧与第一帧对齐。借助所提出的方法,AnimateZero可以成功控制生成过程,无需进一步训练。作为给定图像的零样本图像动画师,AnimateZero还实现了多个新应用,包括交互式视频生成和真实图像动画。详细实验证明了所提方法在T2V及相关应用中的有效性。
强化学习(RL)提供了一个多功能框架来实现长期目标。其通用性使我们能够形式化一系列现实世界智能系统遇到的问题,例如处理延迟奖励、处理部分可观测性、解决探索与利用之间的困境、利用离线数据来改善在线性能,并确保满足安全约束。尽管强化学习研究界在解决这些问题方面取得了相当大的进展,但现有的开源强化学习库往往集中在强化学习解决方案流程的一小部分,而其他方面则大多被忽视。本文介绍了Pearl,一个可用于生产的强化学习代理软件包,专门设计为以模块化方式应对这些挑战。除了展示初步基准结果外,本文还强调了Pearl在工业界的采用,以展示其适用于生产使用的准备情况。Pearl在Github上开源,网址为github.com/facebookresearch/pearl,官方网站位于pearlagent.github.io。
最近,扩散模型在文本到图像(T2I)生成领域取得了显著进展,能够合成具有高保真度和多样内容的图像。尽管取得了这一进展,扩散模型内部的潜在空间平滑性仍然很少被探索。平滑的潜在空间确保对输入潜在的微小扰动会对应于输出图像的稳定变化。这种特性在包括图像插值、反演和编辑在内的下游任务中非常有益。在这项工作中,我们通过观察到由于微小潜在变化而导致的明显视觉波动,揭示了扩散潜在空间的非平滑性。为了解决这个问题,我们提出了平滑扩散,这是一类新型的扩散模型,既能高效执行又能保持平滑。具体来说,我们引入了逐步变化正则化,以强制执行任意输入潜在的变化与输出图像的变化之间的比例在任何扩散训练步骤中保持恒定。此外,我们设计了一个插值标准差(ISTD)度量标准,有效评估扩散模型潜在空间的平滑性。广泛的定量和定性实验表明,平滑扩散不仅在T2I生成中表现出色,而且在各种下游任务中也是更理想的解决方案。平滑扩散被实现为一个即插即用的Smooth-LoRA,可与各种社区模型配合使用。代码可在 https://github.com/SHI-Labs/Smooth-Diffusion 获取。
在本研究中,我们探讨了基于Transformer的扩散模型用于图像和视频生成。尽管Transformer架构在各个领域占据主导地位,因其灵活性和可扩展性,但在视觉生成领域,主要使用基于CNN的U-Net架构,特别是在基于扩散的模型中。我们引入了GenTron,这是一系列采用基于Transformer的扩散的生成模型,以填补这一空白。我们的初始步骤是将Diffusion Transformers(DiTs)从类到文本条件适应,这个过程涉及对条件机制进行彻底的经验性探索。然后,我们将GenTron从约9亿扩展到超过30亿参数,观察到视觉质量显著提高。此外,我们将GenTron扩展到文本到视频生成,引入了新颖的无运动引导以增强视频质量。在与SDXL的人类评估中,GenTron在视觉质量方面获得51.1%的胜率(19.8%的平局率),在文本对齐方面获得42.3%的胜率(42.9%的平局率)。GenTron在T2I-CompBench中也表现出色,突显了其在构成生成方面的优势。我们相信这项工作将提供有意义的见解,并为未来研究提供宝贵的参考。
我们提出了NeRFiller,这是一种通过使用现成的2D视觉生成模型进行生成式3D修补来完成3D捕捉中缺失部分的方法。通常由于网格重建失败或缺乏观察(例如接触区域,如物体底部,或难以到达的区域),捕捉到的3D场景或对象的部分可能会缺失。我们通过利用2D修补扩散模型来解决这一具有挑战性的3D修补问题。我们发现这些模型存在一个令人惊讶的行为,即当图像形成2x2网格时,它们会生成更具3D一致性的修补,并展示如何将这种行为推广到超过四个图像。然后,我们提出了一个迭代框架,将这些修补区域提炼成一个一致的3D场景。与相关作品相比,我们专注于完成场景而不是删除前景对象,我们的方法不需要紧密的2D对象蒙版或文本。我们将我们的方法与适应我们设置的相关基准进行了比较,NeRFiller在各种场景上创建了最具3D一致性和可信度的场景完成。我们的项目页面位于https://ethanweber.me/nerfiller。
最近,扩散模型在合成图像质量和生成控制方面显示出了改进。我们提出并展示了Gen2Det,这是一个简单的模块化流程,通过利用最先进的基于图像生成的方法,免费创建用于目标检测的合成训练数据。与现有的生成单个物体实例、需要识别前景然后粘贴到其他图像上的方法不同,我们简化为直接生成以场景为中心的图像。除了合成数据,Gen2Det还提出了一套技术,以最佳方式利用生成的数据,包括图像级过滤、实例级过滤以及更好的训练方案,以应对生成过程中的缺陷。利用Gen2Det,我们展示了在各种设置下以及不考虑检测方法的目标检测和分割任务中的显著改进。在LVIS的长尾检测设置中,Gen2Det显著提高了稀有类别的性能,同时还显著提高了其他类别的性能,例如,相较于仅在LVIS上使用Mask R-CNN训练的真实数据,我们看到Box AP提高了2.13个百分点,Mask AP提高了1.84个百分点。在COCO的低数据量设置中,Gen2Det始终将Box AP和Mask AP分别提高了2.27和1.85个百分点。在最一般的检测设置中,Gen2Det仍然展示出稳健的性能增益,例如,它将COCO上的Box AP和Mask AP分别提高了0.45和0.32个百分点。
使用扩散模型进行定制生成在图像生成方面取得了令人印象深刻的进展,但在具有挑战性的视频生成任务中仍然不尽人意,因为它需要对主体和动作进行可控性处理。为此,我们提出了DreamVideo,这是一种从所需主体的少量静态图像和目标运动的少量视频生成个性化视频的新方法。DreamVideo将这一任务分解为两个阶段,即主体学习和动作学习,通过利用预先训练的视频扩散模型。主体学习旨在准确捕捉所提供图像中主体的精细外观,这是通过结合文本反演和精心设计的身份适配器的微调来实现的。在动作学习中,我们设计了一个动作适配器,并在给定视频上进行微调,以有效地建模目标运动模式。结合这两个轻量级高效的适配器,可以灵活定制任何主体与任何动作。大量实验结果表明,我们的DreamVideo在定制视频生成方面优于最先进的方法。我们的项目页面位于https://dreamvideo-t2v.github.io。
最近在文本到图像模型方面取得了重大进展,这开启了使用合成图像训练视觉系统的可能性,潜在地克服了大规模收集经过筛选的数据的困难。然而,目前尚不清楚这些模型在大规模情况下的行为,随着训练集中添加更多合成数据。本文研究了最先进的文本到图像模型生成的合成图像的规模定律,用于训练监督模型:带标签监督的图像分类器以及具有语言监督的CLIP。我们确定了几个因素,包括文本提示、无分类器指导规模和文本到图像模型类型,这些因素显著影响了规模化行为。在调整这些因素后,我们观察到合成图像在CLIP训练中表现出类似但略逊于真实图像的规模化趋势,而在训练监督图像分类器时表现明显不佳。我们的分析表明,造成这种性能不佳的主要原因是现成的文本到图像模型无法生成某些概念,这一限制严重影响了图像分类器的训练。我们的研究结果还表明,在以下情况下,扩展合成数据可能特别有效:(1)在监督问题中真实图像供应有限(例如,在ImageNet中少于500,000张图像),(2)评估数据集与训练数据显著不同,表明处于分布之外的情况,或(3)将合成数据与真实图像结合使用,如在训练CLIP模型中所示。
尽管扩散模型展示了生成逼真图像的强大能力,但生成逼真且多样化的视频仍处于起步阶段。其中一个关键原因是当前方法将空间内容和时间动态交织在一起,导致文本到视频生成(T2V)的复杂度显著增加。在这项工作中,我们提出了HiGen,一种基于扩散模型的方法,通过从结构层面和内容层面两个角度解耦视频的空间和时间因素,从而提高性能。在结构层面,我们将T2V任务分解为两个步骤,包括空间推理和时间推理,使用统一的去噪器。具体而言,在空间推理过程中,我们利用文本生成空间连贯的先验,然后在时间推理过程中从这些先验中生成时间连贯的运动。在内容层面,我们从输入视频的内容中提取两种微妙线索,分别可以表达运动和外观变化。这两种线索然后指导模型的训练以生成视频,实现灵活的内容变化并增强时间稳定性。通过解耦范式,HiGen能够有效降低这一任务的复杂度,并生成具有语义准确性和运动稳定性的逼真视频。大量实验证明了HiGen相对于最先进的T2V方法具有卓越的性能。