ChatPaper.aiChatPaper

In-Context-Bearbeitung: Ermöglichung instruktionsbasierter Bildbearbeitung durch In-Context-Generierung in großskaligen Diffusionstransformatoren

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

April 29, 2025
Autoren: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI

Zusammenfassung

Befehlsbasierte Bildbearbeitung ermöglicht eine robuste Bildmodifikation durch natürliche Sprachbefehle, doch aktuelle Methoden stehen vor einem Präzision-Effizienz-Kompromiss. Feinabstimmungsmethoden erfordern erhebliche Rechenressourcen und große Datensätze, während trainingsfreie Techniken mit der Befehlsverständlichkeit und Bearbeitungsqualität kämpfen. Wir lösen dieses Dilemma, indem wir die verbesserte Generierungskapazität und das native kontextuelle Bewusstsein von großskaligen Diffusion Transformers (DiT) nutzen. Unsere Lösung führt drei Beiträge ein: (1) ein In-Context-Bearbeitungsframework für Zero-Shot-Befehlsbefolgung durch In-Context-Prompting, das strukturelle Änderungen vermeidet; (2) eine LoRA-MoE-Hybridabstimmungsstrategie, die die Flexibilität durch effiziente Anpassung und dynamisches Experten-Routing erhöht, ohne umfangreiche Nachschulungen zu erfordern; und (3) eine frühe Filter-Inferenzzeit-Skalierungsmethode unter Verwendung von Vision-Language-Modellen (VLMs), um bessere Anfangsrauschen frühzeitig auszuwählen und so die Bearbeitungsqualität zu verbessern. Umfangreiche Auswertungen demonstrieren die Überlegenheit unserer Methode: Sie übertrifft state-of-the-art Ansätze, während sie nur 0,5 % der Trainingsdaten und 1 % der trainierbaren Parameter im Vergleich zu konventionellen Baselines benötigt. Diese Arbeit etabliert ein neues Paradigma, das eine hochpräzise und dennoch effiziente befehlsgesteuerte Bearbeitung ermöglicht. Codes und Demos finden Sie unter https://river-zhang.github.io/ICEdit-gh-pages/.
English
Instruction-based image editing enables robust image modification via natural language prompts, yet current methods face a precision-efficiency tradeoff. Fine-tuning methods demand significant computational resources and large datasets, while training-free techniques struggle with instruction comprehension and edit quality. We resolve this dilemma by leveraging large-scale Diffusion Transformer (DiT)' enhanced generation capacity and native contextual awareness. Our solution introduces three contributions: (1) an in-context editing framework for zero-shot instruction compliance using in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning strategy that enhances flexibility with efficient adaptation and dynamic expert routing, without extensive retraining; and (3) an early filter inference-time scaling method using vision-language models (VLMs) to select better initial noise early, improving edit quality. Extensive evaluations demonstrate our method's superiority: it outperforms state-of-the-art approaches while requiring only 0.5% training data and 1% trainable parameters compared to conventional baselines. This work establishes a new paradigm that enables high-precision yet efficient instruction-guided editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.

Summary

AI-Generated Summary

PDF11April 30, 2025