Edição em Contexto: Habilitando a Edição de Imagens Instrucional com Geração em Contexto em Transformadores de Difusão em Larga Escala
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
April 29, 2025
Autores: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI
Resumo
A edição de imagens baseada em instruções permite a modificação robusta de imagens por meio de prompts em linguagem natural, porém os métodos atuais enfrentam uma troca entre precisão e eficiência. Métodos de ajuste fino demandam recursos computacionais significativos e grandes conjuntos de dados, enquanto técnicas sem treinamento lutam com a compreensão das instruções e a qualidade das edições. Resolvemos esse dilema aproveitando a capacidade de geração aprimorada e a consciência contextual nativa do Transformador de Difusão em Larga Escala (DiT). Nossa solução introduz três contribuições: (1) um framework de edição em contexto para conformidade com instruções zero-shot usando prompts em contexto, evitando alterações estruturais; (2) uma estratégia híbrida de ajuste LoRA-MoE que aumenta a flexibilidade com adaptação eficiente e roteamento dinâmico de especialistas, sem retreinamento extensivo; e (3) um método de escalonamento de inferência com filtro inicial usando modelos de visão e linguagem (VLMs) para selecionar melhor o ruído inicial precocemente, melhorando a qualidade da edição. Avaliações extensivas demonstram a superioridade do nosso método: ele supera as abordagens state-of-the-art enquanto requer apenas 0,5% dos dados de treinamento e 1% dos parâmetros treináveis em comparação com as linhas de base convencionais. Este trabalho estabelece um novo paradigma que permite edição guiada por instruções de alta precisão e eficiente. Códigos e demonstrações podem ser encontrados em https://river-zhang.github.io/ICEdit-gh-pages/.
English
Instruction-based image editing enables robust image modification via natural
language prompts, yet current methods face a precision-efficiency tradeoff.
Fine-tuning methods demand significant computational resources and large
datasets, while training-free techniques struggle with instruction
comprehension and edit quality. We resolve this dilemma by leveraging
large-scale Diffusion Transformer (DiT)' enhanced generation capacity and
native contextual awareness. Our solution introduces three contributions: (1)
an in-context editing framework for zero-shot instruction compliance using
in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning
strategy that enhances flexibility with efficient adaptation and dynamic expert
routing, without extensive retraining; and (3) an early filter inference-time
scaling method using vision-language models (VLMs) to select better initial
noise early, improving edit quality. Extensive evaluations demonstrate our
method's superiority: it outperforms state-of-the-art approaches while
requiring only 0.5% training data and 1% trainable parameters compared to
conventional baselines. This work establishes a new paradigm that enables
high-precision yet efficient instruction-guided editing. Codes and demos can be
found in https://river-zhang.github.io/ICEdit-gh-pages/.