Beeldbewerking als Programma's met Diffusiemodellen

Samenvatting

Hoewel diffusiemodellen opmerkelijke successen hebben geboekt in tekst-naar-beeldgeneratie, ondervinden ze aanzienlijke uitdagingen bij instructiegestuurde beeldbewerking. Ons onderzoek belicht een belangrijke uitdaging: deze modellen hebben vooral moeite met structureel inconsistente bewerkingen die ingrijpende lay-outwijzigingen met zich meebrengen. Om deze kloof te overbruggen, introduceren we Image Editing As Programs (IEAP), een uniform raamwerk voor beeldbewerking gebouwd op de Diffusion Transformer (DiT)-architectuur. In de kern benadert IEAP instructiegestuurde bewerking vanuit een reductionistisch perspectief, waarbij complexe bewerkingsinstructies worden opgesplitst in reeksen van atomische bewerkingen. Elke bewerking wordt geïmplementeerd via een lichtgewicht adapter die dezelfde DiT-backbone deelt en is gespecialiseerd voor een specifiek type bewerking. Geprogrammeerd door een agent gebaseerd op een vision-language model (VLM), ondersteunen deze bewerkingen gezamenlijk willekeurige en structureel inconsistente transformaties. Door bewerkingen op deze manier te modulariseren en te sequencen, generaliseert IEAP robuust over een breed scala aan bewerkingstaken, van eenvoudige aanpassingen tot ingrijpende structurele wijzigingen. Uitgebreide experimenten tonen aan dat IEAP aanzienlijk beter presteert dan state-of-the-art methoden op standaard benchmarks in diverse bewerkingsscenario's. In deze evaluaties levert ons raamwerk superieure nauwkeurigheid en semantische trouw, met name voor complexe, meerstapsinstructies. Codes zijn beschikbaar op https://github.com/YujiaHu1109/IEAP.

English

While diffusion models have achieved remarkable success in text-to-image generation, they encounter significant challenges with instruction-driven image editing. Our research highlights a key challenge: these models particularly struggle with structurally inconsistent edits that involve substantial layout changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a unified image editing framework built upon the Diffusion Transformer (DiT) architecture. At its core, IEAP approaches instructional editing through a reductionist lens, decomposing complex editing instructions into sequences of atomic operations. Each operation is implemented via a lightweight adapter sharing the same DiT backbone and is specialized for a specific type of edit. Programmed by a vision-language model (VLM)-based agent, these operations collaboratively support arbitrary and structurally inconsistent transformations. By modularizing and sequencing edits in this way, IEAP generalizes robustly across a wide range of editing tasks, from simple adjustments to substantial structural changes. Extensive experiments demonstrate that IEAP significantly outperforms state-of-the-art methods on standard benchmarks across various editing scenarios. In these evaluations, our framework delivers superior accuracy and semantic fidelity, particularly for complex, multi-step instructions. Codes are available at https://github.com/YujiaHu1109/IEAP.

Beeldbewerking als Programma's met Diffusiemodellen

Image Editing As Programs with Diffusion Models

Samenvatting

Support