ChatPaper.aiChatPaper

Edição de Imagens como Programas com Modelos de Difusão

Image Editing As Programs with Diffusion Models

June 4, 2025
Autores: Yujia Hu, Songhua Liu, Zhenxiong Tan, Xingyi Yang, Xinchao Wang
cs.AI

Resumo

Embora os modelos de difusão tenham alcançado sucesso notável na geração de imagens a partir de texto, eles enfrentam desafios significativos na edição de imagens orientada por instruções. Nossa pesquisa destaca um desafio crucial: esses modelos têm dificuldade particular com edições estruturalmente inconsistentes que envolvem mudanças substanciais no layout. Para mitigar essa lacuna, introduzimos o Image Editing As Programs (IEAP), um framework unificado de edição de imagens baseado na arquitetura Diffusion Transformer (DiT). No cerne do IEAP, a edição instrucional é abordada por uma perspectiva reducionista, decompondo instruções complexas de edição em sequências de operações atômicas. Cada operação é implementada por meio de um adaptador leve que compartilha o mesmo backbone DiT e é especializado para um tipo específico de edição. Programadas por um agente baseado em um modelo de visão e linguagem (VLM), essas operações colaboram para suportar transformações arbitrárias e estruturalmente inconsistentes. Ao modularizar e sequenciar as edições dessa forma, o IEAP generaliza de maneira robusta em uma ampla gama de tarefas de edição, desde ajustes simples até mudanças estruturais substanciais. Experimentos extensivos demonstram que o IEAP supera significativamente os métodos state-of-the-art em benchmarks padrão em diversos cenários de edição. Nessas avaliações, nosso framework oferece precisão superior e fidelidade semântica, especialmente para instruções complexas e de múltiplos passos. Os códigos estão disponíveis em https://github.com/YujiaHu1109/IEAP.
English
While diffusion models have achieved remarkable success in text-to-image generation, they encounter significant challenges with instruction-driven image editing. Our research highlights a key challenge: these models particularly struggle with structurally inconsistent edits that involve substantial layout changes. To mitigate this gap, we introduce Image Editing As Programs (IEAP), a unified image editing framework built upon the Diffusion Transformer (DiT) architecture. At its core, IEAP approaches instructional editing through a reductionist lens, decomposing complex editing instructions into sequences of atomic operations. Each operation is implemented via a lightweight adapter sharing the same DiT backbone and is specialized for a specific type of edit. Programmed by a vision-language model (VLM)-based agent, these operations collaboratively support arbitrary and structurally inconsistent transformations. By modularizing and sequencing edits in this way, IEAP generalizes robustly across a wide range of editing tasks, from simple adjustments to substantial structural changes. Extensive experiments demonstrate that IEAP significantly outperforms state-of-the-art methods on standard benchmarks across various editing scenarios. In these evaluations, our framework delivers superior accuracy and semantic fidelity, particularly for complex, multi-step instructions. Codes are available at https://github.com/YujiaHu1109/IEAP.
PDF242June 5, 2025