Edición en contexto: Habilitación de la edición de imágenes instructivas con generación en contexto en transformadores de difusión a gran escala
In-Context Edit: Enabling Instructional Image Editing with In-Context Generation in Large Scale Diffusion Transformer
April 29, 2025
Autores: Zechuan Zhang, Ji Xie, Yu Lu, Zongxin Yang, Yi Yang
cs.AI
Resumen
La edición de imágenes basada en instrucciones permite una modificación robusta de imágenes mediante indicaciones en lenguaje natural; sin embargo, los métodos actuales enfrentan un equilibrio entre precisión y eficiencia. Los métodos de ajuste fino requieren recursos computacionales significativos y grandes conjuntos de datos, mientras que las técnicas libres de entrenamiento luchan con la comprensión de instrucciones y la calidad de la edición. Resolvemos este dilema aprovechando la capacidad de generación mejorada del Transformer de Difusión a Gran Escala (DiT) y su conciencia contextual nativa. Nuestra solución introduce tres contribuciones: (1) un marco de edición en contexto para el cumplimiento de instrucciones en modo zero-shot utilizando indicaciones en contexto, evitando cambios estructurales; (2) una estrategia híbrida de ajuste LoRA-MoE que mejora la flexibilidad con una adaptación eficiente y un enrutamiento dinámico de expertos, sin necesidad de un reentrenamiento extensivo; y (3) un método de escalado en tiempo de inferencia con filtro temprano que utiliza modelos de visión-lenguaje (VLMs) para seleccionar mejor el ruido inicial de manera temprana, mejorando la calidad de la edición. Evaluaciones exhaustivas demuestran la superioridad de nuestro método: supera a los enfoques más avanzados mientras requiere solo el 0.5% de los datos de entrenamiento y el 1% de los parámetros entrenables en comparación con los métodos convencionales. Este trabajo establece un nuevo paradigma que permite una edición guiada por instrucciones de alta precisión y eficiente. Los códigos y demostraciones pueden encontrarse en https://river-zhang.github.io/ICEdit-gh-pages/.
English
Instruction-based image editing enables robust image modification via natural
language prompts, yet current methods face a precision-efficiency tradeoff.
Fine-tuning methods demand significant computational resources and large
datasets, while training-free techniques struggle with instruction
comprehension and edit quality. We resolve this dilemma by leveraging
large-scale Diffusion Transformer (DiT)' enhanced generation capacity and
native contextual awareness. Our solution introduces three contributions: (1)
an in-context editing framework for zero-shot instruction compliance using
in-context prompting, avoiding structural changes; (2) a LoRA-MoE hybrid tuning
strategy that enhances flexibility with efficient adaptation and dynamic expert
routing, without extensive retraining; and (3) an early filter inference-time
scaling method using vision-language models (VLMs) to select better initial
noise early, improving edit quality. Extensive evaluations demonstrate our
method's superiority: it outperforms state-of-the-art approaches while
requiring only 0.5% training data and 1% trainable parameters compared to
conventional baselines. This work establishes a new paradigm that enables
high-precision yet efficient instruction-guided editing. Codes and demos can be
found in https://river-zhang.github.io/ICEdit-gh-pages/.Summary
AI-Generated Summary