Редактирование в контексте: Включение инструктивного редактирования изображений с помощью генерации в контексте в крупномасштабном диффузионном трансформере
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
April 29, 2025
Авторы: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI
Аннотация
Редактирование изображений на основе инструкций позволяет выполнять надежное изменение изображений с помощью текстовых запросов на естественном языке, однако современные методы сталкиваются с компромиссом между точностью и эффективностью. Методы тонкой настройки требуют значительных вычислительных ресурсов и больших наборов данных, в то время как методы без обучения испытывают трудности с пониманием инструкций и качеством редактирования. Мы решаем эту дилемму, используя улучшенные возможности генерации и встроенную контекстную осведомленность крупномасштабного Diffusion Transformer (DiT). Наше решение включает три ключевых вклада: (1) фреймворк для редактирования в контексте, обеспечивающий выполнение инструкций без обучения (zero-shot) с использованием контекстных подсказок, избегая структурных изменений; (2) гибридную стратегию настройки LoRA-MoE, которая повышает гибкость за счет эффективной адаптации и динамической маршрутизации экспертов без необходимости масштабного переобучения; и (3) метод масштабирования на этапе вывода с использованием моделей "визуальный язык" (VLMs) для выбора лучшего начального шума на ранних этапах, что улучшает качество редактирования. Обширные оценки демонстрируют превосходство нашего метода: он превосходит современные подходы, требуя всего 0,5% обучающих данных и 1% обучаемых параметров по сравнению с традиционными базовыми методами. Эта работа устанавливает новую парадигму, позволяющую выполнять высокоточное и эффективное редактирование под руководством инструкций. Коды и демонстрации доступны по ссылке: https://river-zhang.github.io/ICEdit-gh-pages/.
English
Instruction-based image editing enables robust image modification via natural
language prompts, yet current methods face a precision-efficiency tradeoff.
Fine-tuning methods demand significant computational resources and large
datasets, while training-free techniques struggle with instruction
comprehension and edit quality. We resolve this dilemma by leveraging
large-scale Diffusion Transformer (DiT)' enhanced generation capacity and
native contextual awareness. Our solution introduces three contributions: (1)
an in-context editing framework for zero-shot instruction compliance using
in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning
strategy that enhances flexibility with efficient adaptation and dynamic expert
routing, without extensive retraining; and (3) an early filter inference-time
scaling method using vision-language models (VLMs) to select better initial
noise early, improving edit quality. Extensive evaluations demonstrate our
method's superiority: it outperforms state-of-the-art approaches while
requiring only 0.5% training data and 1% trainable parameters compared to
conventional baselines. This work establishes a new paradigm that enables
high-precision yet efficient instruction-guided editing. Codes and demos can be
found in https://river-zhang.github.io/ICEdit-gh-pages/.Summary
AI-Generated Summary