InstructX: Rumo à Edição Visual Unificada com Orientação de MLLM
InstructX: Towards Unified Visual Editing with MLLM Guidance
October 9, 2025
Autores: Chong Mou, Qichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He
cs.AI
Resumo
Com os recentes avanços nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstrando forte compreensão e raciocínio visual, o interesse em utilizá-los para melhorar o desempenho de edição dos modelos de difusão está crescendo. Apesar do rápido progresso, a maioria dos estudos carece de uma análise aprofundada das escolhas de design dos MLLMs. Além disso, a integração entre MLLMs e modelos de difusão continua sendo um desafio em algumas tarefas complexas, como a edição de vídeos. Neste artigo, apresentamos o InstructX, um framework unificado para edição de imagens e vídeos. Especificamente, conduzimos um estudo abrangente sobre a integração de MLLMs e modelos de difusão para edição guiada por instruções em diversas tarefas. Com base nesse estudo, analisamos a cooperação e a distinção entre imagens e vídeos na modelagem unificada. (1) Mostramos que o treinamento com dados de imagem pode levar ao surgimento de capacidades de edição de vídeo sem supervisão explícita, aliviando assim as restrições impostas pela escassez de dados de treinamento em vídeo. (2) Ao incorporar características específicas de modalidade dos MLLMs, nossa abordagem unifica efetivamente as tarefas de edição de imagem e vídeo em um único modelo. Experimentos extensivos demonstram que nosso método pode lidar com uma ampla gama de tarefas de edição de imagem e vídeo e alcança desempenho de ponta.
English
With recent advances in Multimodal Large Language Models (MLLMs) showing
strong visual understanding and reasoning, interest is growing in using them to
improve the editing performance of diffusion models. Despite rapid progress,
most studies lack an in-depth analysis of MLLM design choices. Moreover, the
integration of MLLMs and diffusion models remains an open challenge in some
difficult tasks, such as video editing. In this paper, we present InstructX, a
unified framework for image and video editing. Specifically, we conduct a
comprehensive study on integrating MLLMs and diffusion models for
instruction-driven editing across diverse tasks. Building on this study, we
analyze the cooperation and distinction between images and videos in unified
modeling. (1) We show that training on image data can lead to emergent video
editing capabilities without explicit supervision, thereby alleviating the
constraints imposed by scarce video training data. (2) By incorporating
modality-specific MLLM features, our approach effectively unifies image and
video editing tasks within a single model. Extensive experiments demonstrate
that our method can handle a broad range of image and video editing tasks and
achieves state-of-the-art performance.