Édition d'images en tant que programmes avec des modèles de diffusion
Image Editing As Programs with Diffusion Models
June 4, 2025
Auteurs: Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
cs.AI
Résumé
Bien que les modèles de diffusion aient obtenu un succès remarquable dans la génération d'images à partir de texte, ils rencontrent des défis significatifs dans l'édition d'images pilotée par des instructions. Notre recherche met en lumière un défi majeur : ces modèles peinent particulièrement avec les modifications structurellement incohérentes impliquant des changements importants de mise en page. Pour combler cette lacune, nous introduisons Image Editing As Programs (IEAP), un cadre unifié d'édition d'images basé sur l'architecture Diffusion Transformer (DiT). Au cœur d'IEAP, l'édition instructionnelle est abordée sous un angle réductionniste, décomposant les instructions complexes en séquences d'opérations atomiques. Chaque opération est implémentée via un adaptateur léger partageant le même socle DiT et spécialisé pour un type spécifique de modification. Programmées par un agent basé sur un modèle vision-langage (VLM), ces opérations collaborent pour supporter des transformations arbitraires et structurellement incohérentes. En modularisant et en séquençant les modifications de cette manière, IEAP généralise robustement à travers une large gamme de tâches d'édition, allant des ajustements simples aux changements structurels substantiels. Des expériences approfondies démontrent qu'IEAP surpasse significativement les méthodes de pointe sur des benchmarks standard dans divers scénarios d'édition. Dans ces évaluations, notre cadre offre une précision et une fidélité sémantique supérieures, en particulier pour les instructions complexes et multi-étapes. Les codes sont disponibles à l'adresse suivante : https://github.com/YujiaHu1109/IEAP.
English
While diffusion models have achieved remarkable success in text-to-image
generation, they encounter significant challenges with instruction-driven image
editing. Our research highlights a key challenge: these models particularly
struggle with structurally inconsistent edits that involve substantial layout
changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a
unified image editing framework built upon the Diffusion Transformer (DiT)
architecture. At its core, IEAP approaches instructional editing through a
reductionist lens, decomposing complex editing instructions into sequences of
atomic operations. Each operation is implemented via a lightweight adapter
sharing the same DiT backbone and is specialized for a specific type of edit.
Programmed by a vision-language model (VLM)-based agent, these operations
collaboratively support arbitrary and structurally inconsistent
transformations. By modularizing and sequencing edits in this way, IEAP
generalizes robustly across a wide range of editing tasks, from simple
adjustments to substantial structural changes. Extensive experiments
demonstrate that IEAP significantly outperforms state-of-the-art methods on
standard benchmarks across various editing scenarios. In these evaluations, our
framework delivers superior accuracy and semantic fidelity, particularly for
complex, multi-step instructions. Codes are available at
https://github.com/YujiaHu1109/IEAP.