In-Context Bewerking: Het mogelijk maken van instructiegestuurde beeldbewerking met in-context generatie in grootschalige diffusie-transformers
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
April 29, 2025
Auteurs: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI
Samenvatting
Instructie-gebaseerde beeldbewerking maakt robuuste beeldmodificatie mogelijk via natuurlijke taalprompts, maar huidige methoden kampen met een afweging tussen precisie en efficiëntie. Fine-tuning methoden vereisen aanzienlijke rekenbronnen en grote datasets, terwijl trainingsvrije technieken moeite hebben met instructiebegrip en bewerkingskwaliteit. Wij lossen dit dilemma op door gebruik te maken van de verbeterde generatiecapaciteit en het inherente contextuele bewustzijn van grootschalige Diffusion Transformers (DiT). Onze oplossing introduceert drie bijdragen: (1) een in-context bewerkingsframework voor zero-shot instructienaleving met behulp van in-context prompting, zonder structurele wijzigingen; (2) een LoRA-MoE hybride afstemmingsstrategie die flexibiliteit vergroot met efficiënte aanpassing en dynamische expertroutering, zonder uitgebreide hertraining; en (3) een vroege filter inferentie-tijd schalingsmethode met behulp van vision-language modellen (VLMs) om betere initiële ruis vroegtijdig te selecteren, wat de bewerkingskwaliteit verbetert. Uitgebreide evaluaties tonen de superioriteit van onze methode aan: het overtreft state-of-the-art benaderingen terwijl het slechts 0,5% trainingsdata en 1% trainbare parameters vereist in vergelijking met conventionele referentiemethoden. Dit werk vestigt een nieuw paradigma dat hoogprecisie en toch efficiënte instructiegeleide bewerking mogelijk maakt. Codes en demo's zijn te vinden op https://river-zhang.github.io/ICEdit-gh-pages/.
English
Instruction-based image editing enables robust image modification via natural
language prompts, yet current methods face a precision-efficiency tradeoff.
Fine-tuning methods demand significant computational resources and large
datasets, while training-free techniques struggle with instruction
comprehension and edit quality. We resolve this dilemma by leveraging
large-scale Diffusion Transformer (DiT)' enhanced generation capacity and
native contextual awareness. Our solution introduces three contributions: (1)
an in-context editing framework for zero-shot instruction compliance using
in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning
strategy that enhances flexibility with efficient adaptation and dynamic expert
routing, without extensive retraining; and (3) an early filter inference-time
scaling method using vision-language models (VLMs) to select better initial
noise early, improving edit quality. Extensive evaluations demonstrate our
method's superiority: it outperforms state-of-the-art approaches while
requiring only 0.5% training data and 1% trainable parameters compared to
conventional baselines. This work establishes a new paradigm that enables
high-precision yet efficient instruction-guided editing. Codes and demos can be
found in https://river-zhang.github.io/ICEdit-gh-pages/.Summary
AI-Generated Summary