Add-it:使用预训练扩散模型在图像中进行无需训练的对象插入Add-it: Training-Free Object Insertion in Images With Pretrained
Diffusion Models
根据文本指令在图像中添加物体是语义图像编辑中的一项具有挑战性的任务,需要在保留原始场景和将新物体无缝整合到合适位置之间取得平衡。尽管已经做出了大量努力,现有模型通常在这种平衡上存在困难,特别是在复杂场景中寻找自然位置以添加物体时。我们引入了Add-it,这是一种无需训练的方法,它通过扩展扩散模型的注意机制来整合来自三个关键来源的信息:场景图像、文本提示和生成的图像本身。我们的加权扩展注意机制保持结构一致性和细节,同时确保自然物体放置。在没有特定任务微调的情况下,Add-it 在真实和生成的图像插入基准测试中取得了最先进的结果,包括我们新构建的“添加功能基准测试”,用于评估物体放置的合理性,优于监督方法。人类评估显示,在超过80%的情况下,人们更喜欢使用Add-it,并且它还在各种自动化指标上展现出改进。