InstructX:MLLMガイダンスによる統合的な視覚編集に向けて
InstructX: Towards Unified Visual Editing with MLLM Guidance
October 9, 2025
著者: Chong Mou, Qichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He
cs.AI
要旨
近年のマルチモーダル大規模言語モデル(MLLM)の進展により、視覚的理解と推論能力が大幅に向上し、これらを拡散モデルの編集性能向上に活用する関心が高まっています。しかし、急速な進展にもかかわらず、ほとんどの研究ではMLLMの設計選択に関する詳細な分析が不足しています。さらに、MLLMと拡散モデルの統合は、ビデオ編集などの困難なタスクにおいて依然として未解決の課題です。本論文では、画像およびビデオ編集のための統一フレームワークであるInstructXを提案します。具体的には、多様なタスクにおける指示駆動型編集のためにMLLMと拡散モデルを統合する包括的な研究を行います。この研究を基盤として、画像とビデオの統一モデリングにおける協調と差異を分析します。(1) 画像データでのトレーニングが、明示的な監督なしにビデオ編集能力を発現させ、ビデオトレーニングデータの不足による制約を緩和できることを示します。(2) モダリティ固有のMLLM特徴を組み込むことで、画像とビデオ編集タスクを単一モデル内で効果的に統合します。広範な実験により、本手法が多様な画像およびビデオ編集タスクを処理し、最先端の性能を達成できることを実証します。
English
With recent advances in Multimodal Large Language Models (MLLMs) showing
strong visual understanding and reasoning, interest is growing in using them to
improve the editing performance of diffusion models. Despite rapid progress,
most studies lack an in-depth analysis of MLLM design choices. Moreover, the
integration of MLLMs and diffusion models remains an open challenge in some
difficult tasks, such as video editing. In this paper, we present InstructX, a
unified framework for image and video editing. Specifically, we conduct a
comprehensive study on integrating MLLMs and diffusion models for
instruction-driven editing across diverse tasks. Building on this study, we
analyze the cooperation and distinction between images and videos in unified
modeling. (1) We show that training on image data can lead to emergent video
editing capabilities without explicit supervision, thereby alleviating the
constraints imposed by scarce video training data. (2) By incorporating
modality-specific MLLM features, our approach effectively unifies image and
video editing tasks within a single model. Extensive experiments demonstrate
that our method can handle a broad range of image and video editing tasks and
achieves state-of-the-art performance.