Édition Contextuelle : Permettre l'édition d'images instructives grâce à la génération contextuelle dans un transformateur de diffusion à grande échelle

papers.abstract

L'édition d'images basée sur des instructions permet une modification robuste des images via des prompts en langage naturel, mais les méthodes actuelles sont confrontées à un compromis entre précision et efficacité. Les méthodes de fine-tuning nécessitent des ressources computationnelles importantes et de grands ensembles de données, tandis que les techniques sans entraînement peinent à comprendre les instructions et à garantir la qualité des modifications. Nous résolvons ce dilemme en exploitant la capacité de génération améliorée et la conscience contextuelle native des Transformers de Diffusion à grande échelle (DiT). Notre solution introduit trois contributions : (1) un cadre d'édition en contexte pour la conformité aux instructions en zero-shot en utilisant des prompts contextuels, évitant les changements structurels ; (2) une stratégie hybride de réglage LoRA-MoE qui améliore la flexibilité avec une adaptation efficace et un routage dynamique des experts, sans nécessiter de réentraînement extensif ; et (3) une méthode de mise à l'échelle inférentielle précoce utilisant des modèles vision-langage (VLMs) pour sélectionner un meilleur bruit initial dès le début, améliorant ainsi la qualité des modifications. Des évaluations approfondies démontrent la supériorité de notre méthode : elle surpasse les approches de pointe tout en nécessitant seulement 0,5 % des données d'entraînement et 1 % des paramètres entraînables par rapport aux bases de référence conventionnelles. Ce travail établit un nouveau paradigme permettant une édition guidée par instructions à la fois de haute précision et efficace. Les codes et démonstrations sont disponibles sur https://river-zhang.github.io/ICEdit-gh-pages/.

English

Instruction-based image editing enables robust image modification via natural language prompts, yet current methods face a precision-efficiency tradeoff. Fine-tuning methods demand significant computational resources and large datasets, while training-free techniques struggle with instruction comprehension and edit quality. We resolve this dilemma by leveraging large-scale Diffusion Transformer (DiT)' enhanced generation capacity and native contextual awareness. Our solution introduces three contributions: (1) an in-context editing framework for zero-shot instruction compliance using in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning strategy that enhances flexibility with efficient adaptation and dynamic expert routing, without extensive retraining; and (3) an early filter inference-time scaling method using vision-language models (VLMs) to select better initial noise early, improving edit quality. Extensive evaluations demonstrate our method's superiority: it outperforms state-of-the-art approaches while requiring only 0.5% training data and 1% trainable parameters compared to conventional baselines. This work establishes a new paradigm that enables high-precision yet efficient instruction-guided editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.

Édition Contextuelle : Permettre l'édition d'images instructives grâce à la génération contextuelle dans un transformateur de diffusion à grande échelle

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

papers.abstract

Support