Édition Contextuelle : Permettre l'édition d'images instructives grâce à la génération contextuelle dans un transformateur de diffusion à grande échelle
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
April 29, 2025
Auteurs: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI
Résumé
L'édition d'images basée sur des instructions permet une modification robuste des images via des prompts en langage naturel, mais les méthodes actuelles sont confrontées à un compromis entre précision et efficacité. Les méthodes de fine-tuning nécessitent des ressources computationnelles importantes et de grands ensembles de données, tandis que les techniques sans entraînement peinent à comprendre les instructions et à garantir la qualité des modifications. Nous résolvons ce dilemme en exploitant la capacité de génération améliorée et la conscience contextuelle native des Transformers de Diffusion à grande échelle (DiT). Notre solution introduit trois contributions : (1) un cadre d'édition en contexte pour la conformité aux instructions en zero-shot en utilisant des prompts contextuels, évitant les changements structurels ; (2) une stratégie hybride de réglage LoRA-MoE qui améliore la flexibilité avec une adaptation efficace et un routage dynamique des experts, sans nécessiter de réentraînement extensif ; et (3) une méthode de mise à l'échelle inférentielle précoce utilisant des modèles vision-langage (VLMs) pour sélectionner un meilleur bruit initial dès le début, améliorant ainsi la qualité des modifications. Des évaluations approfondies démontrent la supériorité de notre méthode : elle surpasse les approches de pointe tout en nécessitant seulement 0,5 % des données d'entraînement et 1 % des paramètres entraînables par rapport aux bases de référence conventionnelles. Ce travail établit un nouveau paradigme permettant une édition guidée par instructions à la fois de haute précision et efficace. Les codes et démonstrations sont disponibles sur https://river-zhang.github.io/ICEdit-gh-pages/.
English
Instruction-based image editing enables robust image modification via natural
language prompts, yet current methods face a precision-efficiency tradeoff.
Fine-tuning methods demand significant computational resources and large
datasets, while training-free techniques struggle with instruction
comprehension and edit quality. We resolve this dilemma by leveraging
large-scale Diffusion Transformer (DiT)' enhanced generation capacity and
native contextual awareness. Our solution introduces three contributions: (1)
an in-context editing framework for zero-shot instruction compliance using
in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning
strategy that enhances flexibility with efficient adaptation and dynamic expert
routing, without extensive retraining; and (3) an early filter inference-time
scaling method using vision-language models (VLMs) to select better initial
noise early, improving edit quality. Extensive evaluations demonstrate our
method's superiority: it outperforms state-of-the-art approaches while
requiring only 0.5% training data and 1% trainable parameters compared to
conventional baselines. This work establishes a new paradigm that enables
high-precision yet efficient instruction-guided editing. Codes and demos can be
found in https://river-zhang.github.io/ICEdit-gh-pages/.Summary
AI-Generated Summary