InstructX: Naar een Uniforme Visuele Bewerking met MLLM-begeleiding
InstructX: Towards Unified Visual Editing with MLLM Guidance
October 9, 2025
Auteurs: Chong Mou, Qichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He
cs.AI
Samenvatting
Met recente vooruitgang in Multimodale Grote Taalmodellen (MLLMs) die een sterk visueel begrip en redeneren tonen, groeit de interesse om deze te gebruiken om de bewerkingsprestaties van diffusiemodellen te verbeteren. Ondanks snelle vooruitgang ontbreekt het bij de meeste studies aan een diepgaande analyse van de ontwerpkeuzes voor MLLMs. Bovendien blijft de integratie van MLLMs en diffusiemodellen een uitdaging bij sommige moeilijke taken, zoals videobewerking. In dit artikel presenteren we InstructX, een uniform raamwerk voor beeld- en videobewerking. Specifiek voeren we een uitgebreide studie uit naar de integratie van MLLMs en diffusiemodellen voor instructiegestuurde bewerkingen in diverse taken. Op basis van deze studie analyseren we de samenwerking en het onderscheid tussen beelden en video's in uniforme modellering. (1) We laten zien dat training op beeldgegevens kan leiden tot opkomende videobewerkingsmogelijkheden zonder expliciete supervisie, waardoor de beperkingen door schaarse videotrainingsgegevens worden verlicht. (2) Door het opnemen van modalitiespecifieke MLLM-kenmerken verenigt onze aanpak beeld- en videobewerkingstaken effectief binnen één model. Uitgebreide experimenten tonen aan dat onze methode een breed scala aan beeld- en videobewerkingstaken aankan en state-of-the-art prestaties bereikt.
English
With recent advances in Multimodal Large Language Models (MLLMs) showing
strong visual understanding and reasoning, interest is growing in using them to
improve the editing performance of diffusion models. Despite rapid progress,
most studies lack an in-depth analysis of MLLM design choices. Moreover, the
integration of MLLMs and diffusion models remains an open challenge in some
difficult tasks, such as video editing. In this paper, we present InstructX, a
unified framework for image and video editing. Specifically, we conduct a
comprehensive study on integrating MLLMs and diffusion models for
instruction-driven editing across diverse tasks. Building on this study, we
analyze the cooperation and distinction between images and videos in unified
modeling. (1) We show that training on image data can lead to emergent video
editing capabilities without explicit supervision, thereby alleviating the
constraints imposed by scarce video training data. (2) By incorporating
modality-specific MLLM features, our approach effectively unifies image and
video editing tasks within a single model. Extensive experiments demonstrate
that our method can handle a broad range of image and video editing tasks and
achieves state-of-the-art performance.