ChatPaper.aiChatPaper

Modifica delle Immagini come Programmi con Modelli di Diffusione

Image Editing As Programs with Diffusion Models

June 4, 2025
Autori: Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
cs.AI

Abstract

Sebbene i modelli di diffusione abbiano ottenuto un notevole successo nella generazione di immagini da testo, incontrano significative difficoltà nell'editing di immagini guidato da istruzioni. La nostra ricerca evidenzia una sfida chiave: questi modelli faticano particolarmente con modifiche strutturalmente inconsistenti che comportano sostanziali cambiamenti di layout. Per colmare questa lacuna, introduciamo Image Editing As Programs (IEAP), un framework unificato per l'editing di immagini basato sull'architettura Diffusion Transformer (DiT). Al suo nucleo, IEAP affronta l'editing guidato da istruzioni attraverso una prospettiva riduzionista, scomponendo istruzioni complesse di editing in sequenze di operazioni atomiche. Ciascuna operazione è implementata tramite un adattatore leggero che condivide lo stesso backbone DiT ed è specializzato per un tipo specifico di modifica. Programmato da un agente basato su un modello visione-linguaggio (VLM), queste operazioni collaborano per supportare trasformazioni arbitrarie e strutturalmente inconsistenti. Modularizzando e sequenziando le modifiche in questo modo, IEAP generalizza in modo robusto su un'ampia gamma di task di editing, da semplici aggiustamenti a sostanziali cambiamenti strutturali. Esperimenti estensivi dimostrano che IEAP supera significativamente i metodi all'avanguardia su benchmark standard in vari scenari di editing. In queste valutazioni, il nostro framework offre una precisione e una fedeltà semantica superiori, specialmente per istruzioni complesse e multi-step. I codici sono disponibili all'indirizzo https://github.com/YujiaHu1109/IEAP.
English
While diffusion models have achieved remarkable success in text-to-image generation, they encounter significant challenges with instruction-driven image editing. Our research highlights a key challenge: these models particularly struggle with structurally inconsistent edits that involve substantial layout changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a unified image editing framework built upon the Diffusion Transformer (DiT) architecture. At its core, IEAP approaches instructional editing through a reductionist lens, decomposing complex editing instructions into sequences of atomic operations. Each operation is implemented via a lightweight adapter sharing the same DiT backbone and is specialized for a specific type of edit. Programmed by a vision-language model (VLM)-based agent, these operations collaboratively support arbitrary and structurally inconsistent transformations. By modularizing and sequencing edits in this way, IEAP generalizes robustly across a wide range of editing tasks, from simple adjustments to substantial structural changes. Extensive experiments demonstrate that IEAP significantly outperforms state-of-the-art methods on standard benchmarks across various editing scenarios. In these evaluations, our framework delivers superior accuracy and semantic fidelity, particularly for complex, multi-step instructions. Codes are available at https://github.com/YujiaHu1109/IEAP.
PDF242June 5, 2025