ChatPaper.aiChatPaper

Diffree: Preenchimento de Objetos Livres de Forma Guiado por Texto com Modelo de Difusão

Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model

July 24, 2024
Autores: Lirui Zhao, Tianshuo Yang, Wenqi Shao, Yuxin Zhang, Yu Qiao, Ping Luo, Kaipeng Zhang, Rongrong Ji
cs.AI

Resumo

Este artigo aborda um problema importante de adição de objetos para imagens apenas com orientação de texto. É desafiador porque o novo objeto deve ser integrado de forma perfeita na imagem com contexto visual consistente, como iluminação, textura e localização espacial. Enquanto os métodos existentes de preenchimento de imagem guiados por texto podem adicionar objetos, eles falham em preservar a consistência do plano de fundo ou envolvem uma intervenção humana complicada na especificação de caixas delimitadoras ou máscaras desenhadas pelo usuário. Para enfrentar esse desafio, apresentamos o Diffree, um modelo Texto-para-Imagem (T2I) que facilita a adição de objetos guiada por texto com apenas controle de texto. Para isso, criamos o OABench, um conjunto de dados sintético requintado removendo objetos com técnicas avançadas de preenchimento de imagem. O OABench é composto por 74 mil tuplas do mundo real de uma imagem original, uma imagem preenchida com o objeto removido, uma máscara de objeto e descrições de objetos. Treinado no OABench usando o modelo de Difusão Estável com um módulo adicional de previsão de máscara, o Diffree prevê de forma única a posição do novo objeto e realiza a adição do objeto com orientação apenas de texto. Experimentos extensivos demonstram que o Diffree se destaca na adição de novos objetos com uma alta taxa de sucesso, mantendo a consistência do plano de fundo, a adequação espacial e a relevância e qualidade do objeto.
English
This paper addresses an important problem of object addition for images with only text guidance. It is challenging because the new object must be integrated seamlessly into the image with consistent visual context, such as lighting, texture, and spatial location. While existing text-guided image inpainting methods can add objects, they either fail to preserve the background consistency or involve cumbersome human intervention in specifying bounding boxes or user-scribbled masks. To tackle this challenge, we introduce Diffree, a Text-to-Image (T2I) model that facilitates text-guided object addition with only text control. To this end, we curate OABench, an exquisite synthetic dataset by removing objects with advanced image inpainting techniques. OABench comprises 74K real-world tuples of an original image, an inpainted image with the object removed, an object mask, and object descriptions. Trained on OABench using the Stable Diffusion model with an additional mask prediction module, Diffree uniquely predicts the position of the new object and achieves object addition with guidance from only text. Extensive experiments demonstrate that Diffree excels in adding new objects with a high success rate while maintaining background consistency, spatial appropriateness, and object relevance and quality.

Summary

AI-Generated Summary

PDF432November 28, 2024