Diffree: Preenchimento de Objetos Livres de Forma Guiado por Texto com Modelo de DifusãoDiffree: Text-Guided Shape Free Object Inpainting with Diffusion Model
Este artigo aborda um problema importante de adição de objetos para imagens apenas com orientação de texto. É desafiador porque o novo objeto deve ser integrado de forma perfeita na imagem com contexto visual consistente, como iluminação, textura e localização espacial. Enquanto os métodos existentes de preenchimento de imagem guiados por texto podem adicionar objetos, eles falham em preservar a consistência do plano de fundo ou envolvem uma intervenção humana complicada na especificação de caixas delimitadoras ou máscaras desenhadas pelo usuário. Para enfrentar esse desafio, apresentamos o Diffree, um modelo Texto-para-Imagem (T2I) que facilita a adição de objetos guiada por texto com apenas controle de texto. Para isso, criamos o OABench, um conjunto de dados sintético requintado removendo objetos com técnicas avançadas de preenchimento de imagem. O OABench é composto por 74 mil tuplas do mundo real de uma imagem original, uma imagem preenchida com o objeto removido, uma máscara de objeto e descrições de objetos. Treinado no OABench usando o modelo de Difusão Estável com um módulo adicional de previsão de máscara, o Diffree prevê de forma única a posição do novo objeto e realiza a adição do objeto com orientação apenas de texto. Experimentos extensivos demonstram que o Diffree se destaca na adição de novos objetos com uma alta taxa de sucesso, mantendo a consistência do plano de fundo, a adequação espacial e a relevância e qualidade do objeto.