In-Context-Bearbeitung: Ermöglichung instruktionsbasierter Bildbearbeitung durch In-Context-Generierung in großskaligen Diffusionstransformatoren
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
April 29, 2025
Autoren: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI
Zusammenfassung
Befehlsbasierte Bildbearbeitung ermöglicht eine robuste Bildmodifikation durch natürliche Sprachbefehle, doch aktuelle Methoden stehen vor einem Präzision-Effizienz-Kompromiss. Feinabstimmungsmethoden erfordern erhebliche Rechenressourcen und große Datensätze, während trainingsfreie Techniken mit der Befehlsverständlichkeit und Bearbeitungsqualität kämpfen. Wir lösen dieses Dilemma, indem wir die verbesserte Generierungskapazität und das native kontextuelle Bewusstsein von großskaligen Diffusion Transformers (DiT) nutzen. Unsere Lösung führt drei Beiträge ein: (1) ein In-Context-Bearbeitungsframework für Zero-Shot-Befehlsbefolgung durch In-Context-Prompting, das strukturelle Änderungen vermeidet; (2) eine LoRA-MoE-Hybridabstimmungsstrategie, die die Flexibilität durch effiziente Anpassung und dynamisches Experten-Routing erhöht, ohne umfangreiche Nachschulungen zu erfordern; und (3) eine frühe Filter-Inferenzzeit-Skalierungsmethode unter Verwendung von Vision-Language-Modellen (VLMs), um bessere Anfangsrauschen frühzeitig auszuwählen und so die Bearbeitungsqualität zu verbessern. Umfangreiche Auswertungen demonstrieren die Überlegenheit unserer Methode: Sie übertrifft state-of-the-art Ansätze, während sie nur 0,5 % der Trainingsdaten und 1 % der trainierbaren Parameter im Vergleich zu konventionellen Baselines benötigt. Diese Arbeit etabliert ein neues Paradigma, das eine hochpräzise und dennoch effiziente befehlsgesteuerte Bearbeitung ermöglicht. Codes und Demos finden Sie unter https://river-zhang.github.io/ICEdit-gh-pages/.
English
Instruction-based image editing enables robust image modification via natural
language prompts, yet current methods face a precision-efficiency tradeoff.
Fine-tuning methods demand significant computational resources and large
datasets, while training-free techniques struggle with instruction
comprehension and edit quality. We resolve this dilemma by leveraging
large-scale Diffusion Transformer (DiT)' enhanced generation capacity and
native contextual awareness. Our solution introduces three contributions: (1)
an in-context editing framework for zero-shot instruction compliance using
in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning
strategy that enhances flexibility with efficient adaptation and dynamic expert
routing, without extensive retraining; and (3) an early filter inference-time
scaling method using vision-language models (VLMs) to select better initial
noise early, improving edit quality. Extensive evaluations demonstrate our
method's superiority: it outperforms state-of-the-art approaches while
requiring only 0.5% training data and 1% trainable parameters compared to
conventional baselines. This work establishes a new paradigm that enables
high-precision yet efficient instruction-guided editing. Codes and demos can be
found in https://river-zhang.github.io/ICEdit-gh-pages/.Summary
AI-Generated Summary