Bildbearbeitung als Programme mit Diffusionsmodellen
Image Editing As Programs with Diffusion Models
June 4, 2025
Autoren: Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
cs.AI
Zusammenfassung
Während Diffusionsmodelle bemerkenswerte Erfolge in der Text-zu-Bild-Generierung erzielt haben, stoßen sie bei der instruktionsgesteuerten Bildbearbeitung auf erhebliche Herausforderungen. Unsere Forschung hebt eine zentrale Schwierigkeit hervor: Diese Modelle haben insbesondere Probleme mit strukturell inkonsistenten Bearbeitungen, die erhebliche Layoutänderungen beinhalten. Um diese Lücke zu schließen, stellen wir Image Editing As Programs (IEAP) vor, ein einheitliches Bildbearbeitungsframework, das auf der Diffusion Transformer (DiT)-Architektur basiert. Im Kern betrachtet IEAP die instruktionsbasierte Bearbeitung durch eine reduktionistische Linse, indem komplexe Bearbeitungsanweisungen in Sequenzen atomarer Operationen zerlegt werden. Jede Operation wird über einen leichtgewichtigen Adapter implementiert, der denselben DiT-Backbone teilt und für einen spezifischen Bearbeitungstyp spezialisiert ist. Diese Operationen, die von einem auf einem Vision-Language-Modell (VLM) basierenden Agenten programmiert werden, unterstützen gemeinsam beliebige und strukturell inkonsistente Transformationen. Durch die Modularisierung und Sequenzierung von Bearbeitungen auf diese Weise generalisiert IEAP robust über eine breite Palette von Bearbeitungsaufgaben hinweg, von einfachen Anpassungen bis hin zu erheblichen strukturellen Veränderungen. Umfangreiche Experimente zeigen, dass IEAP state-of-the-art-Methoden auf Standard-Benchmarks in verschiedenen Bearbeitungsszenarien deutlich übertrifft. In diesen Bewertungen liefert unser Framework überlegene Genauigkeit und semantische Treue, insbesondere bei komplexen, mehrstufigen Anweisungen. Der Code ist verfügbar unter https://github.com/YujiaHu1109/IEAP.
English
While diffusion models have achieved remarkable success in text-to-image
generation, they encounter significant challenges with instruction-driven image
editing. Our research highlights a key challenge: these models particularly
struggle with structurally inconsistent edits that involve substantial layout
changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a
unified image editing framework built upon the Diffusion Transformer (DiT)
architecture. At its core, IEAP approaches instructional editing through a
reductionist lens, decomposing complex editing instructions into sequences of
atomic operations. Each operation is implemented via a lightweight adapter
sharing the same DiT backbone and is specialized for a specific type of edit.
Programmed by a vision-language model (VLM)-based agent, these operations
collaboratively support arbitrary and structurally inconsistent
transformations. By modularizing and sequencing edits in this way, IEAP
generalizes robustly across a wide range of editing tasks, from simple
adjustments to substantial structural changes. Extensive experiments
demonstrate that IEAP significantly outperforms state-of-the-art methods on
standard benchmarks across various editing scenarios. In these evaluations, our
framework delivers superior accuracy and semantic fidelity, particularly for
complex, multi-step instructions. Codes are available at
https://github.com/YujiaHu1109/IEAP.