Add-it: Inserción de Objetos en Imágenes sin Entrenamiento con Modelos de Difusión Pre-entrenados
Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models
November 11, 2024
Autores: Yoad Tewel, Rinon Gal, Dvir Samuel Yuval Atzmon, Lior Wolf, Gal Chechik
cs.AI
Resumen
Agregar un objeto en imágenes basado en instrucciones de texto es una tarea desafiante en la edición semántica de imágenes, que requiere un equilibrio entre preservar la escena original e integrar sin problemas el nuevo objeto en una ubicación adecuada. A pesar de los esfuerzos extensos, los modelos existentes a menudo tienen dificultades con este equilibrio, especialmente al encontrar una ubicación natural para agregar un objeto en escenas complejas. Presentamos Add-it, un enfoque sin entrenamiento que extiende los mecanismos de atención de los modelos de difusión para incorporar información de tres fuentes clave: la imagen de la escena, la indicación de texto y la imagen generada en sí misma. Nuestro mecanismo de atención extendida ponderado mantiene la consistencia estructural y los detalles finos al garantizar una colocación natural del objeto. Sin ajuste fino específico de la tarea, Add-it logra resultados de vanguardia tanto en imágenes reales como generadas, incluido nuestro nuevo "Banco de Pruebas de Adecuación de Agregado" para evaluar la plausibilidad de la colocación del objeto, superando a los métodos supervisados. Las evaluaciones humanas muestran que Add-it es preferido en más del 80% de los casos, y también demuestra mejoras en varias métricas automatizadas.
English
Adding Object into images based on text instructions is a challenging task in
semantic image editing, requiring a balance between preserving the original
scene and seamlessly integrating the new object in a fitting location. Despite
extensive efforts, existing models often struggle with this balance,
particularly with finding a natural location for adding an object in complex
scenes. We introduce Add-it, a training-free approach that extends diffusion
models' attention mechanisms to incorporate information from three key sources:
the scene image, the text prompt, and the generated image itself. Our weighted
extended-attention mechanism maintains structural consistency and fine details
while ensuring natural object placement. Without task-specific fine-tuning,
Add-it achieves state-of-the-art results on both real and generated image
insertion benchmarks, including our newly constructed "Additing Affordance
Benchmark" for evaluating object placement plausibility, outperforming
supervised methods. Human evaluations show that Add-it is preferred in over 80%
of cases, and it also demonstrates improvements in various automated metrics.Summary
AI-Generated Summary