Edição em Contexto: Habilitando a Edição de Imagens Instrucional com Geração em Contexto em Transformadores de Difusão em Larga Escala

Resumo

A edição de imagens baseada em instruções permite a modificação robusta de imagens por meio de prompts em linguagem natural, porém os métodos atuais enfrentam uma troca entre precisão e eficiência. Métodos de ajuste fino demandam recursos computacionais significativos e grandes conjuntos de dados, enquanto técnicas sem treinamento lutam com a compreensão das instruções e a qualidade das edições. Resolvemos esse dilema aproveitando a capacidade de geração aprimorada e a consciência contextual nativa do Transformador de Difusão em Larga Escala (DiT). Nossa solução introduz três contribuições: (1) um framework de edição em contexto para conformidade com instruções zero-shot usando prompts em contexto, evitando alterações estruturais; (2) uma estratégia híbrida de ajuste LoRA-MoE que aumenta a flexibilidade com adaptação eficiente e roteamento dinâmico de especialistas, sem retreinamento extensivo; e (3) um método de escalonamento de inferência com filtro inicial usando modelos de visão e linguagem (VLMs) para selecionar melhor o ruído inicial precocemente, melhorando a qualidade da edição. Avaliações extensivas demonstram a superioridade do nosso método: ele supera as abordagens state-of-the-art enquanto requer apenas 0,5% dos dados de treinamento e 1% dos parâmetros treináveis em comparação com as linhas de base convencionais. Este trabalho estabelece um novo paradigma que permite edição guiada por instruções de alta precisão e eficiente. Códigos e demonstrações podem ser encontrados em https://river-zhang.github.io/ICEdit-gh-pages/.

English

Instruction-based image editing enables robust image modification via natural language prompts, yet current methods face a precision-efficiency tradeoff. Fine-tuning methods demand significant computational resources and large datasets, while training-free techniques struggle with instruction comprehension and edit quality. We resolve this dilemma by leveraging large-scale Diffusion Transformer (DiT)' enhanced generation capacity and native contextual awareness. Our solution introduces three contributions: (1) an in-context editing framework for zero-shot instruction compliance using in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning strategy that enhances flexibility with efficient adaptation and dynamic expert routing, without extensive retraining; and (3) an early filter inference-time scaling method using vision-language models (VLMs) to select better initial noise early, improving edit quality. Extensive evaluations demonstrate our method's superiority: it outperforms state-of-the-art approaches while requiring only 0.5% training data and 1% trainable parameters compared to conventional baselines. This work establishes a new paradigm that enables high-precision yet efficient instruction-guided editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.

Edição em Contexto: Habilitando a Edição de Imagens Instrucional com Geração em Contexto em Transformadores de Difusão em Larga Escala

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

Resumo

Support