Diffree: Preenchimento de Objetos Livres de Forma Guiado por Texto com Modelo de Difusão
Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model
July 24, 2024
Autores: Lirui Zhao, Tianshuo Yang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Kaipeng Zhang, Rongrong Ji
cs.AI
Resumo
Este artigo aborda um problema importante de adição de objetos para imagens apenas com orientação de texto. É desafiador porque o novo objeto deve ser integrado de forma perfeita na imagem com contexto visual consistente, como iluminação, textura e localização espacial. Enquanto os métodos existentes de preenchimento de imagem guiados por texto podem adicionar objetos, eles falham em preservar a consistência do plano de fundo ou envolvem uma intervenção humana complicada na especificação de caixas delimitadoras ou máscaras desenhadas pelo usuário. Para enfrentar esse desafio, apresentamos o Diffree, um modelo Texto-para-Imagem (T2I) que facilita a adição de objetos guiada por texto com apenas controle de texto. Para isso, criamos o OABench, um conjunto de dados sintético requintado removendo objetos com técnicas avançadas de preenchimento de imagem. O OABench é composto por 74 mil tuplas do mundo real de uma imagem original, uma imagem preenchida com o objeto removido, uma máscara de objeto e descrições de objetos. Treinado no OABench usando o modelo de Difusão Estável com um módulo adicional de previsão de máscara, o Diffree prevê de forma única a posição do novo objeto e realiza a adição do objeto com orientação apenas de texto. Experimentos extensivos demonstram que o Diffree se destaca na adição de novos objetos com uma alta taxa de sucesso, mantendo a consistência do plano de fundo, a adequação espacial e a relevância e qualidade do objeto.
English
This paper addresses an important problem of object addition for images with
only text guidance. It is challenging because the new object must be integrated
seamlessly into the image with consistent visual context, such as lighting,
texture, and spatial location. While existing text-guided image inpainting
methods can add objects, they either fail to preserve the background
consistency or involve cumbersome human intervention in specifying bounding
boxes or user-scribbled masks. To tackle this challenge, we introduce Diffree,
a Text-to-Image (T2I) model that facilitates text-guided object addition with
only text control. To this end, we curate OABench, an exquisite synthetic
dataset by removing objects with advanced image inpainting techniques. OABench
comprises 74K real-world tuples of an original image, an inpainted image with
the object removed, an object mask, and object descriptions. Trained on OABench
using the Stable Diffusion model with an additional mask prediction module,
Diffree uniquely predicts the position of the new object and achieves object
addition with guidance from only text. Extensive experiments demonstrate that
Diffree excels in adding new objects with a high success rate while maintaining
background consistency, spatial appropriateness, and object relevance and
quality.Summary
AI-Generated Summary