ChatPaper.aiChatPaper

Modifica In-Contesto: Abilitazione della Modifica di Immagini Istruttive con Generazione In-Contesto nei Modelli di Trasformatori Diffusivi su Larga Scala

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

April 29, 2025
Autori: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI

Abstract

La modifica delle immagini basata su istruzioni consente una robusta alterazione delle immagini tramite prompt in linguaggio naturale, tuttavia i metodi attuali affrontano un compromesso tra precisione ed efficienza. Le tecniche di fine-tuning richiedono risorse computazionali significative e grandi dataset, mentre le tecniche senza addestramento faticano nella comprensione delle istruzioni e nella qualità delle modifiche. Risolviamo questo dilemma sfruttando la capacità di generazione avanzata e la consapevolezza contestuale nativa dei Transformer di Diffusione su larga scala (DiT). La nostra soluzione introduce tre contributi: (1) un framework di modifica in-context per il rispetto delle istruzioni in zero-shot utilizzando prompt in-context, evitando cambiamenti strutturali; (2) una strategia di tuning ibrida LoRA-MoE che migliora la flessibilità con un adattamento efficiente e un routing dinamico degli esperti, senza un esteso riaddestramento; e (3) un metodo di scalatura inferenziale con filtro precoce che utilizza modelli visione-linguaggio (VLMs) per selezionare un rumore iniziale migliore in anticipo, migliorando la qualità delle modifiche. Valutazioni estensive dimostrano la superiorità del nostro metodo: supera gli approcci all'avanguardia richiedendo solo lo 0,5% dei dati di addestramento e l'1% dei parametri addestrabili rispetto ai baselines convenzionali. Questo lavoro stabilisce un nuovo paradigma che abilita una modifica guidata da istruzioni ad alta precisione ma efficiente. Codici e demo sono disponibili su https://river-zhang.github.io/ICEdit-gh-pages/.
English
Instruction-based image editing enables robust image modification via natural language prompts, yet current methods face a precision-efficiency tradeoff. Fine-tuning methods demand significant computational resources and large datasets, while training-free techniques struggle with instruction comprehension and edit quality. We resolve this dilemma by leveraging large-scale Diffusion Transformer (DiT)' enhanced generation capacity and native contextual awareness. Our solution introduces three contributions: (1) an in-context editing framework for zero-shot instruction compliance using in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning strategy that enhances flexibility with efficient adaptation and dynamic expert routing, without extensive retraining; and (3) an early filter inference-time scaling method using vision-language models (VLMs) to select better initial noise early, improving edit quality. Extensive evaluations demonstrate our method's superiority: it outperforms state-of-the-art approaches while requiring only 0.5% training data and 1% trainable parameters compared to conventional baselines. This work establishes a new paradigm that enables high-precision yet efficient instruction-guided editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.

Summary

AI-Generated Summary

PDF11April 30, 2025