Bildbearbeitung als Programme mit Diffusionsmodellen

papers.abstract

Während Diffusionsmodelle bemerkenswerte Erfolge in der Text-zu-Bild-Generierung erzielt haben, stoßen sie bei der instruktionsgesteuerten Bildbearbeitung auf erhebliche Herausforderungen. Unsere Forschung hebt eine zentrale Schwierigkeit hervor: Diese Modelle haben insbesondere Probleme mit strukturell inkonsistenten Bearbeitungen, die erhebliche Layoutänderungen beinhalten. Um diese Lücke zu schließen, stellen wir Image Editing As Programs (IEAP) vor, ein einheitliches Bildbearbeitungsframework, das auf der Diffusion Transformer (DiT)-Architektur basiert. Im Kern betrachtet IEAP die instruktionsbasierte Bearbeitung durch eine reduktionistische Linse, indem komplexe Bearbeitungsanweisungen in Sequenzen atomarer Operationen zerlegt werden. Jede Operation wird über einen leichtgewichtigen Adapter implementiert, der denselben DiT-Backbone teilt und für einen spezifischen Bearbeitungstyp spezialisiert ist. Diese Operationen, die von einem auf einem Vision-Language-Modell (VLM) basierenden Agenten programmiert werden, unterstützen gemeinsam beliebige und strukturell inkonsistente Transformationen. Durch die Modularisierung und Sequenzierung von Bearbeitungen auf diese Weise generalisiert IEAP robust über eine breite Palette von Bearbeitungsaufgaben hinweg, von einfachen Anpassungen bis hin zu erheblichen strukturellen Veränderungen. Umfangreiche Experimente zeigen, dass IEAP state-of-the-art-Methoden auf Standard-Benchmarks in verschiedenen Bearbeitungsszenarien deutlich übertrifft. In diesen Bewertungen liefert unser Framework überlegene Genauigkeit und semantische Treue, insbesondere bei komplexen, mehrstufigen Anweisungen. Der Code ist verfügbar unter https://github.com/YujiaHu1109/IEAP.

English

While diffusion models have achieved remarkable success in text-to-image generation, they encounter significant challenges with instruction-driven image editing. Our research highlights a key challenge: these models particularly struggle with structurally inconsistent edits that involve substantial layout changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a unified image editing framework built upon the Diffusion Transformer (DiT) architecture. At its core, IEAP approaches instructional editing through a reductionist lens, decomposing complex editing instructions into sequences of atomic operations. Each operation is implemented via a lightweight adapter sharing the same DiT backbone and is specialized for a specific type of edit. Programmed by a vision-language model (VLM)-based agent, these operations collaboratively support arbitrary and structurally inconsistent transformations. By modularizing and sequencing edits in this way, IEAP generalizes robustly across a wide range of editing tasks, from simple adjustments to substantial structural changes. Extensive experiments demonstrate that IEAP significantly outperforms state-of-the-art methods on standard benchmarks across various editing scenarios. In these evaluations, our framework delivers superior accuracy and semantic fidelity, particularly for complex, multi-step instructions. Codes are available at https://github.com/YujiaHu1109/IEAP.

Bildbearbeitung als Programme mit Diffusionsmodellen

Image Editing As Programs with Diffusion Models

papers.abstract

Support