ChatPaper.aiChatPaper

In-Context Bewerking: Het mogelijk maken van instructiegestuurde beeldbewerking met in-context generatie in grootschalige diffusie-transformers

In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer

April 29, 2025
Auteurs: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI

Samenvatting

Instructie-gebaseerde beeldbewerking maakt robuuste beeldmodificatie mogelijk via natuurlijke taalprompts, maar huidige methoden kampen met een afweging tussen precisie en efficiëntie. Fine-tuning methoden vereisen aanzienlijke rekenbronnen en grote datasets, terwijl trainingsvrije technieken moeite hebben met instructiebegrip en bewerkingskwaliteit. Wij lossen dit dilemma op door gebruik te maken van de verbeterde generatiecapaciteit en het inherente contextuele bewustzijn van grootschalige Diffusion Transformers (DiT). Onze oplossing introduceert drie bijdragen: (1) een in-context bewerkingsframework voor zero-shot instructienaleving met behulp van in-context prompting, zonder structurele wijzigingen; (2) een LoRA-MoE hybride afstemmingsstrategie die flexibiliteit vergroot met efficiënte aanpassing en dynamische expertroutering, zonder uitgebreide hertraining; en (3) een vroege filter inferentie-tijd schalingsmethode met behulp van vision-language modellen (VLMs) om betere initiële ruis vroegtijdig te selecteren, wat de bewerkingskwaliteit verbetert. Uitgebreide evaluaties tonen de superioriteit van onze methode aan: het overtreft state-of-the-art benaderingen terwijl het slechts 0,5% trainingsdata en 1% trainbare parameters vereist in vergelijking met conventionele referentiemethoden. Dit werk vestigt een nieuw paradigma dat hoogprecisie en toch efficiënte instructiegeleide bewerking mogelijk maakt. Codes en demo's zijn te vinden op https://river-zhang.github.io/ICEdit-gh-pages/.
English
Instruction-based image editing enables robust image modification via natural language prompts, yet current methods face a precision-efficiency tradeoff. Fine-tuning methods demand significant computational resources and large datasets, while training-free techniques struggle with instruction comprehension and edit quality. We resolve this dilemma by leveraging large-scale Diffusion Transformer (DiT)' enhanced generation capacity and native contextual awareness. Our solution introduces three contributions: (1) an in-context editing framework for zero-shot instruction compliance using in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning strategy that enhances flexibility with efficient adaptation and dynamic expert routing, without extensive retraining; and (3) an early filter inference-time scaling method using vision-language models (VLMs) to select better initial noise early, improving edit quality. Extensive evaluations demonstrate our method's superiority: it outperforms state-of-the-art approaches while requiring only 0.5% training data and 1% trainable parameters compared to conventional baselines. This work establishes a new paradigm that enables high-precision yet efficient instruction-guided editing. Codes and demos can be found in https://river-zhang.github.io/ICEdit-gh-pages/.

Summary

AI-Generated Summary

PDF11April 30, 2025