ChatPaper.aiChatPaper

Édition Contextuelle : Permettre l'édition d'images instructives grâce à la génération contextuelle dans un transformateur de diffusion à grande échelle

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

April 29, 2025
Auteurs: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI

Résumé

L'édition d'images basée sur des instructions permet une modification robuste des images via des prompts en langage naturel, mais les méthodes actuelles sont confrontées à un compromis entre précision et efficacité. Les méthodes de fine-tuning nécessitent des ressources computationnelles importantes et de grands ensembles de données, tandis que les techniques sans entraînement peinent à comprendre les instructions et à garantir la qualité des modifications. Nous résolvons ce dilemme en exploitant la capacité de génération améliorée et la conscience contextuelle native des Transformers de Diffusion à grande échelle (DiT). Notre solution introduit trois contributions : (1) un cadre d'édition en contexte pour la conformité aux instructions en zero-shot en utilisant des prompts contextuels, évitant les changements structurels ; (2) une stratégie hybride de réglage LoRA-MoE qui améliore la flexibilité avec une adaptation efficace et un routage dynamique des experts, sans nécessiter de réentraînement extensif ; et (3) une méthode de mise à l'échelle inférentielle précoce utilisant des modèles vision-langage (VLMs) pour sélectionner un meilleur bruit initial dès le début, améliorant ainsi la qualité des modifications. Des évaluations approfondies démontrent la supériorité de notre méthode : elle surpasse les approches de pointe tout en nécessitant seulement 0,5 % des données d'entraînement et 1 % des paramètres entraînables par rapport aux bases de référence conventionnelles. Ce travail établit un nouveau paradigme permettant une édition guidée par instructions à la fois de haute précision et efficace. Les codes et démonstrations sont disponibles sur https://river-zhang.github.io/ICEdit-gh-pages/.
English
Instruction-based image editing enables robust image modification via natural language prompts, yet current methods face a precision-efficiency tradeoff. Fine-tuning methods demand significant computational resources and large datasets, while training-free techniques struggle with instruction comprehension and edit quality. We resolve this dilemma by leveraging large-scale Diffusion Transformer (DiT)' enhanced generation capacity and native contextual awareness. Our solution introduces three contributions: (1) an in-context editing framework for zero-shot instruction compliance using in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning strategy that enhances flexibility with efficient adaptation and dynamic expert routing, without extensive retraining; and (3) an early filter inference-time scaling method using vision-language models (VLMs) to select better initial noise early, improving edit quality. Extensive evaluations demonstrate our method's superiority: it outperforms state-of-the-art approaches while requiring only 0.5% training data and 1% trainable parameters compared to conventional baselines. This work establishes a new paradigm that enables high-precision yet efficient instruction-guided editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.

Summary

AI-Generated Summary

PDF11April 30, 2025