InstructX: Hacia la Edición Visual Unificada con Guía de MLLM
InstructX: Towards Unified Visual Editing with MLLM Guidance
October 9, 2025
Autores: Chong Mou, Qichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He
cs.AI
Resumen
Con los recientes avances en los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs, por sus siglas en inglés), que muestran una sólida comprensión y razonamiento visual, está creciendo el interés en utilizarlos para mejorar el rendimiento de edición de los modelos de difusión. A pesar del rápido progreso, la mayoría de los estudios carecen de un análisis en profundidad sobre las decisiones de diseño de los MLLMs. Además, la integración de los MLLMs con los modelos de difusión sigue siendo un desafío abierto en algunas tareas complejas, como la edición de video. En este artículo, presentamos InstructX, un marco unificado para la edición de imágenes y videos. Específicamente, realizamos un estudio exhaustivo sobre la integración de MLLMs y modelos de difusión para la edición basada en instrucciones en diversas tareas. Basándonos en este estudio, analizamos la cooperación y distinción entre imágenes y videos en el modelado unificado. (1) Demostramos que el entrenamiento con datos de imágenes puede generar capacidades emergentes de edición de video sin supervisión explícita, lo que alivia las limitaciones impuestas por la escasez de datos de entrenamiento en video. (2) Al incorporar características específicas de modalidad en los MLLMs, nuestro enfoque unifica eficazmente las tareas de edición de imágenes y videos en un solo modelo. Experimentos extensos demuestran que nuestro método puede manejar una amplia gama de tareas de edición de imágenes y videos y alcanza un rendimiento de vanguardia.
English
With recent advances in Multimodal Large Language Models (MLLMs) showing
strong visual understanding and reasoning, interest is growing in using them to
improve the editing performance of diffusion models. Despite rapid progress,
most studies lack an in-depth analysis of MLLM design choices. Moreover, the
integration of MLLMs and diffusion models remains an open challenge in some
difficult tasks, such as video editing. In this paper, we present InstructX, a
unified framework for image and video editing. Specifically, we conduct a
comprehensive study on integrating MLLMs and diffusion models for
instruction-driven editing across diverse tasks. Building on this study, we
analyze the cooperation and distinction between images and videos in unified
modeling. (1) We show that training on image data can lead to emergent video
editing capabilities without explicit supervision, thereby alleviating the
constraints imposed by scarce video training data. (2) By incorporating
modality-specific MLLM features, our approach effectively unifies image and
video editing tasks within a single model. Extensive experiments demonstrate
that our method can handle a broad range of image and video editing tasks and
achieves state-of-the-art performance.