Edición de imágenes como programas con modelos de difusión
Image Editing As Programs with Diffusion Models
June 4, 2025
Autores: Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
cs.AI
Resumen
Si bien los modelos de difusión han logrado un éxito notable en la generación de imágenes a partir de texto, enfrentan desafíos significativos en la edición de imágenes guiada por instrucciones. Nuestra investigación destaca un desafío clave: estos modelos tienen dificultades particulares con ediciones estructuralmente inconsistentes que implican cambios sustanciales en el diseño. Para mitigar esta brecha, presentamos Image Editing As Programs (IEAP), un marco unificado de edición de imágenes basado en la arquitectura Diffusion Transformer (DiT). En esencia, IEAP aborda la edición instructiva desde una perspectiva reduccionista, descomponiendo instrucciones de edición complejas en secuencias de operaciones atómicas. Cada operación se implementa mediante un adaptador ligero que comparte el mismo núcleo DiT y está especializado para un tipo específico de edición. Programadas por un agente basado en un modelo de visión y lenguaje (VLM), estas operaciones colaboran para respaldar transformaciones arbitrarias y estructuralmente inconsistentes. Al modularizar y secuenciar las ediciones de esta manera, IEAP generaliza de manera robusta en una amplia gama de tareas de edición, desde ajustes simples hasta cambios estructurales sustanciales. Experimentos extensos demuestran que IEAP supera significativamente a los métodos más avanzados en puntos de referencia estándar en diversos escenarios de edición. En estas evaluaciones, nuestro marco ofrece una precisión y fidelidad semántica superiores, especialmente para instrucciones complejas y de múltiples pasos. Los códigos están disponibles en https://github.com/YujiaHu1109/IEAP.
English
While diffusion models have achieved remarkable success in text-to-image
generation, they encounter significant challenges with instruction-driven image
editing. Our research highlights a key challenge: these models particularly
struggle with structurally inconsistent edits that involve substantial layout
changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a
unified image editing framework built upon the Diffusion Transformer (DiT)
architecture. At its core, IEAP approaches instructional editing through a
reductionist lens, decomposing complex editing instructions into sequences of
atomic operations. Each operation is implemented via a lightweight adapter
sharing the same DiT backbone and is specialized for a specific type of edit.
Programmed by a vision-language model (VLM)-based agent, these operations
collaboratively support arbitrary and structurally inconsistent
transformations. By modularizing and sequencing edits in this way, IEAP
generalizes robustly across a wide range of editing tasks, from simple
adjustments to substantial structural changes. Extensive experiments
demonstrate that IEAP significantly outperforms state-of-the-art methods on
standard benchmarks across various editing scenarios. In these evaluations, our
framework delivers superior accuracy and semantic fidelity, particularly for
complex, multi-step instructions. Codes are available at
https://github.com/YujiaHu1109/IEAP.