Add-it: Inserción de Objetos en Imágenes sin Entrenamiento con Modelos de Difusión Pre-entrenados

Resumen

Agregar un objeto en imágenes basado en instrucciones de texto es una tarea desafiante en la edición semántica de imágenes, que requiere un equilibrio entre preservar la escena original e integrar sin problemas el nuevo objeto en una ubicación adecuada. A pesar de los esfuerzos extensos, los modelos existentes a menudo tienen dificultades con este equilibrio, especialmente al encontrar una ubicación natural para agregar un objeto en escenas complejas. Presentamos Add-it, un enfoque sin entrenamiento que extiende los mecanismos de atención de los modelos de difusión para incorporar información de tres fuentes clave: la imagen de la escena, la indicación de texto y la imagen generada en sí misma. Nuestro mecanismo de atención extendida ponderado mantiene la consistencia estructural y los detalles finos al garantizar una colocación natural del objeto. Sin ajuste fino específico de la tarea, Add-it logra resultados de vanguardia tanto en imágenes reales como generadas, incluido nuestro nuevo "Banco de Pruebas de Adecuación de Agregado" para evaluar la plausibilidad de la colocación del objeto, superando a los métodos supervisados. Las evaluaciones humanas muestran que Add-it es preferido en más del 80% de los casos, y también demuestra mejoras en varias métricas automatizadas.

English

Adding Object into images based on text instructions is a challenging task in semantic image editing, requiring a balance between preserving the original scene and seamlessly integrating the new object in a fitting location. Despite extensive efforts, existing models often struggle with this balance, particularly with finding a natural location for adding an object in complex scenes. We introduce Add-it, a training-free approach that extends diffusion models' attention mechanisms to incorporate information from three key sources: the scene image, the text prompt, and the generated image itself. Our weighted extended-attention mechanism maintains structural consistency and fine details while ensuring natural object placement. Without task-specific fine-tuning, Add-it achieves state-of-the-art results on both real and generated image insertion benchmarks, including our newly constructed "Additing Affordance Benchmark" for evaluating object placement plausibility, outperforming supervised methods. Human evaluations show that Add-it is preferred in over 80% of cases, and it also demonstrates improvements in various automated metrics.

Add-it: Inserción de Objetos en Imágenes sin Entrenamiento con Modelos de Difusión Pre-entrenados

Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models

Resumen

Support