Edição de Imagens como Programas com Modelos de Difusão
Image Editing As Programs with Diffusion Models
June 4, 2025
Autores: Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
cs.AI
Resumo
Embora os modelos de difusão tenham alcançado sucesso notável na geração de imagens a partir de texto, eles enfrentam desafios significativos na edição de imagens orientada por instruções. Nossa pesquisa destaca um desafio crucial: esses modelos têm dificuldade particular com edições estruturalmente inconsistentes que envolvem mudanças substanciais no layout. Para mitigar essa lacuna, introduzimos o Image Editing As Programs (IEAP), um framework unificado de edição de imagens baseado na arquitetura Diffusion Transformer (DiT). No cerne do IEAP, a edição instrucional é abordada por uma perspectiva reducionista, decompondo instruções complexas de edição em sequências de operações atômicas. Cada operação é implementada por meio de um adaptador leve que compartilha o mesmo backbone DiT e é especializado para um tipo específico de edição. Programadas por um agente baseado em um modelo de visão e linguagem (VLM), essas operações colaboram para suportar transformações arbitrárias e estruturalmente inconsistentes. Ao modularizar e sequenciar as edições dessa forma, o IEAP generaliza de maneira robusta em uma ampla gama de tarefas de edição, desde ajustes simples até mudanças estruturais substanciais. Experimentos extensivos demonstram que o IEAP supera significativamente os métodos state-of-the-art em benchmarks padrão em diversos cenários de edição. Nessas avaliações, nosso framework oferece precisão superior e fidelidade semântica, especialmente para instruções complexas e de múltiplos passos. Os códigos estão disponíveis em https://github.com/YujiaHu1109/IEAP.
English
While diffusion models have achieved remarkable success in text-to-image
generation, they encounter significant challenges with instruction-driven image
editing. Our research highlights a key challenge: these models particularly
struggle with structurally inconsistent edits that involve substantial layout
changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a
unified image editing framework built upon the Diffusion Transformer (DiT)
architecture. At its core, IEAP approaches instructional editing through a
reductionist lens, decomposing complex editing instructions into sequences of
atomic operations. Each operation is implemented via a lightweight adapter
sharing the same DiT backbone and is specialized for a specific type of edit.
Programmed by a vision-language model (VLM)-based agent, these operations
collaboratively support arbitrary and structurally inconsistent
transformations. By modularizing and sequencing edits in this way, IEAP
generalizes robustly across a wide range of editing tasks, from simple
adjustments to substantial structural changes. Extensive experiments
demonstrate that IEAP significantly outperforms state-of-the-art methods on
standard benchmarks across various editing scenarios. In these evaluations, our
framework delivers superior accuracy and semantic fidelity, particularly for
complex, multi-step instructions. Codes are available at
https://github.com/YujiaHu1109/IEAP.