InstructX : Vers une édition visuelle unifiée avec guidage par MLLM
InstructX: Towards Unified Visual Editing with MLLM Guidance
October 9, 2025
papers.authors: Chong Mou, Qichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He
cs.AI
papers.abstract
Avec les récents progrès des modèles de langage multimodaux de grande envergure (MLLMs) démontrant une compréhension et un raisonnement visuels solides, l'intérêt grandit pour leur utilisation afin d'améliorer les performances d'édition des modèles de diffusion. Malgré des avancées rapides, la plupart des études manquent d'une analyse approfondie des choix de conception des MLLMs. De plus, l'intégration des MLLMs et des modèles de diffusion reste un défi ouvert dans certaines tâches complexes, telles que l'édition vidéo. Dans cet article, nous présentons InstructX, un cadre unifié pour l'édition d'images et de vidéos. Plus précisément, nous menons une étude approfondie sur l'intégration des MLLMs et des modèles de diffusion pour l'édition pilotée par instructions dans diverses tâches. Sur la base de cette étude, nous analysons la coopération et la distinction entre les images et les vidéos dans une modélisation unifiée. (1) Nous montrons que l'entraînement sur des données d'images peut conduire à des capacités émergentes d'édition vidéo sans supervision explicite, atténuant ainsi les contraintes imposées par la rareté des données d'entraînement vidéo. (2) En incorporant des caractéristiques spécifiques aux modalités des MLLMs, notre approche unifie efficacement les tâches d'édition d'images et de vidéos au sein d'un seul modèle. Des expériences approfondies démontrent que notre méthode peut gérer un large éventail de tâches d'édition d'images et de vidéos et atteint des performances de pointe.
English
With recent advances in Multimodal Large Language Models (MLLMs) showing
strong visual understanding and reasoning, interest is growing in using them to
improve the editing performance of diffusion models. Despite rapid progress,
most studies lack an in-depth analysis of MLLM design choices. Moreover, the
integration of MLLMs and diffusion models remains an open challenge in some
difficult tasks, such as video editing. In this paper, we present InstructX, a
unified framework for image and video editing. Specifically, we conduct a
comprehensive study on integrating MLLMs and diffusion models for
instruction-driven editing across diverse tasks. Building on this study, we
analyze the cooperation and distinction between images and videos in unified
modeling. (1) We show that training on image data can lead to emergent video
editing capabilities without explicit supervision, thereby alleviating the
constraints imposed by scarce video training data. (2) By incorporating
modality-specific MLLM features, our approach effectively unifies image and
video editing tasks within a single model. Extensive experiments demonstrate
that our method can handle a broad range of image and video editing tasks and
achieves state-of-the-art performance.