Beeldbewerking als Programma's met Diffusiemodellen
Image Editing As Programs with Diffusion Models
June 4, 2025
Auteurs: Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
cs.AI
Samenvatting
Hoewel diffusiemodellen opmerkelijke successen hebben geboekt in tekst-naar-beeldgeneratie, ondervinden ze aanzienlijke uitdagingen bij instructiegestuurde beeldbewerking. Ons onderzoek belicht een belangrijke uitdaging: deze modellen hebben vooral moeite met structureel inconsistente bewerkingen die ingrijpende lay-outwijzigingen met zich meebrengen. Om deze kloof te overbruggen, introduceren we Image Editing As Programs (IEAP), een uniform raamwerk voor beeldbewerking gebouwd op de Diffusion Transformer (DiT)-architectuur. In de kern benadert IEAP instructiegestuurde bewerking vanuit een reductionistisch perspectief, waarbij complexe bewerkingsinstructies worden opgesplitst in reeksen van atomische bewerkingen. Elke bewerking wordt geïmplementeerd via een lichtgewicht adapter die dezelfde DiT-backbone deelt en is gespecialiseerd voor een specifiek type bewerking. Geprogrammeerd door een agent gebaseerd op een vision-language model (VLM), ondersteunen deze bewerkingen gezamenlijk willekeurige en structureel inconsistente transformaties. Door bewerkingen op deze manier te modulariseren en te sequencen, generaliseert IEAP robuust over een breed scala aan bewerkingstaken, van eenvoudige aanpassingen tot ingrijpende structurele wijzigingen. Uitgebreide experimenten tonen aan dat IEAP aanzienlijk beter presteert dan state-of-the-art methoden op standaard benchmarks in diverse bewerkingsscenario's. In deze evaluaties levert ons raamwerk superieure nauwkeurigheid en semantische trouw, met name voor complexe, meerstapsinstructies. Codes zijn beschikbaar op https://github.com/YujiaHu1109/IEAP.
English
While diffusion models have achieved remarkable success in text-to-image
generation, they encounter significant challenges with instruction-driven image
editing. Our research highlights a key challenge: these models particularly
struggle with structurally inconsistent edits that involve substantial layout
changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a
unified image editing framework built upon the Diffusion Transformer (DiT)
architecture. At its core, IEAP approaches instructional editing through a
reductionist lens, decomposing complex editing instructions into sequences of
atomic operations. Each operation is implemented via a lightweight adapter
sharing the same DiT backbone and is specialized for a specific type of edit.
Programmed by a vision-language model (VLM)-based agent, these operations
collaboratively support arbitrary and structurally inconsistent
transformations. By modularizing and sequencing edits in this way, IEAP
generalizes robustly across a wide range of editing tasks, from simple
adjustments to substantial structural changes. Extensive experiments
demonstrate that IEAP significantly outperforms state-of-the-art methods on
standard benchmarks across various editing scenarios. In these evaluations, our
framework delivers superior accuracy and semantic fidelity, particularly for
complex, multi-step instructions. Codes are available at
https://github.com/YujiaHu1109/IEAP.