Edición de imágenes como programas con modelos de difusión

Resumen

Si bien los modelos de difusión han logrado un éxito notable en la generación de imágenes a partir de texto, enfrentan desafíos significativos en la edición de imágenes guiada por instrucciones. Nuestra investigación destaca un desafío clave: estos modelos tienen dificultades particulares con ediciones estructuralmente inconsistentes que implican cambios sustanciales en el diseño. Para mitigar esta brecha, presentamos Image Editing As Programs (IEAP), un marco unificado de edición de imágenes basado en la arquitectura Diffusion Transformer (DiT). En esencia, IEAP aborda la edición instructiva desde una perspectiva reduccionista, descomponiendo instrucciones de edición complejas en secuencias de operaciones atómicas. Cada operación se implementa mediante un adaptador ligero que comparte el mismo núcleo DiT y está especializado para un tipo específico de edición. Programadas por un agente basado en un modelo de visión y lenguaje (VLM), estas operaciones colaboran para respaldar transformaciones arbitrarias y estructuralmente inconsistentes. Al modularizar y secuenciar las ediciones de esta manera, IEAP generaliza de manera robusta en una amplia gama de tareas de edición, desde ajustes simples hasta cambios estructurales sustanciales. Experimentos extensos demuestran que IEAP supera significativamente a los métodos más avanzados en puntos de referencia estándar en diversos escenarios de edición. En estas evaluaciones, nuestro marco ofrece una precisión y fidelidad semántica superiores, especialmente para instrucciones complejas y de múltiples pasos. Los códigos están disponibles en https://github.com/YujiaHu1109/IEAP.

English

While diffusion models have achieved remarkable success in text-to-image generation, they encounter significant challenges with instruction-driven image editing. Our research highlights a key challenge: these models particularly struggle with structurally inconsistent edits that involve substantial layout changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a unified image editing framework built upon the Diffusion Transformer (DiT) architecture. At its core, IEAP approaches instructional editing through a reductionist lens, decomposing complex editing instructions into sequences of atomic operations. Each operation is implemented via a lightweight adapter sharing the same DiT backbone and is specialized for a specific type of edit. Programmed by a vision-language model (VLM)-based agent, these operations collaboratively support arbitrary and structurally inconsistent transformations. By modularizing and sequencing edits in this way, IEAP generalizes robustly across a wide range of editing tasks, from simple adjustments to substantial structural changes. Extensive experiments demonstrate that IEAP significantly outperforms state-of-the-art methods on standard benchmarks across various editing scenarios. In these evaluations, our framework delivers superior accuracy and semantic fidelity, particularly for complex, multi-step instructions. Codes are available at https://github.com/YujiaHu1109/IEAP.

Edición de imágenes como programas con modelos de difusión

Image Editing As Programs with Diffusion Models

Resumen

Support