Add-it: Inserción de Objetos en Imágenes sin Entrenamiento con Modelos de Difusión Pre-entrenadosAdd-it: Training-Free Object Insertion in Images With Pretrained
Diffusion Models
Agregar un objeto en imágenes basado en instrucciones de texto es una tarea desafiante en la edición semántica de imágenes, que requiere un equilibrio entre preservar la escena original e integrar sin problemas el nuevo objeto en una ubicación adecuada. A pesar de los esfuerzos extensos, los modelos existentes a menudo tienen dificultades con este equilibrio, especialmente al encontrar una ubicación natural para agregar un objeto en escenas complejas. Presentamos Add-it, un enfoque sin entrenamiento que extiende los mecanismos de atención de los modelos de difusión para incorporar información de tres fuentes clave: la imagen de la escena, la indicación de texto y la imagen generada en sí misma. Nuestro mecanismo de atención extendida ponderado mantiene la consistencia estructural y los detalles finos al garantizar una colocación natural del objeto. Sin ajuste fino específico de la tarea, Add-it logra resultados de vanguardia tanto en imágenes reales como generadas, incluido nuestro nuevo "Banco de Pruebas de Adecuación de Agregado" para evaluar la plausibilidad de la colocación del objeto, superando a los métodos supervisados. Las evaluaciones humanas muestran que Add-it es preferido en más del 80% de los casos, y también demuestra mejoras en varias métricas automatizadas.