InstructX: Verso un'Editing Visivo Unificato con Guida MLLM
InstructX: Towards Unified Visual Editing with MLLM Guidance
October 9, 2025
Autori: Chong Mou, Qichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He
cs.AI
Abstract
Con i recenti progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs) che dimostrano una forte comprensione e ragionamento visivo, sta crescendo l'interesse nell'utilizzarli per migliorare le prestazioni di editing dei modelli di diffusione. Nonostante i rapidi progressi, la maggior parte degli studi manca di un'analisi approfondita delle scelte progettuali degli MLLM. Inoltre, l'integrazione tra MLLM e modelli di diffusione rimane una sfida aperta in alcuni compiti difficili, come l'editing video. In questo articolo, presentiamo InstructX, un framework unificato per l'editing di immagini e video. Nello specifico, conduciamo uno studio completo sull'integrazione di MLLM e modelli di diffusione per l'editing guidato da istruzioni in diverse attività. Basandoci su questo studio, analizziamo la cooperazione e la distinzione tra immagini e video nella modellizzazione unificata. (1) Dimostriamo che l'addestramento su dati di immagini può portare a capacità emergenti di editing video senza una supervisione esplicita, alleviando così i vincoli imposti dalla scarsità di dati di addestramento video. (2) Incorporando caratteristiche MLLM specifiche per modalità, il nostro approccio unifica efficacemente le attività di editing di immagini e video all'interno di un unico modello. Esperimenti estensivi dimostrano che il nostro metodo può gestire un'ampia gamma di attività di editing di immagini e video e raggiunge prestazioni all'avanguardia.
English
With recent advances in Multimodal Large Language Models (MLLMs) showing
strong visual understanding and reasoning, interest is growing in using them to
improve the editing performance of diffusion models. Despite rapid progress,
most studies lack an in-depth analysis of MLLM design choices. Moreover, the
integration of MLLMs and diffusion models remains an open challenge in some
difficult tasks, such as video editing. In this paper, we present InstructX, a
unified framework for image and video editing. Specifically, we conduct a
comprehensive study on integrating MLLMs and diffusion models for
instruction-driven editing across diverse tasks. Building on this study, we
analyze the cooperation and distinction between images and videos in unified
modeling. (1) We show that training on image data can lead to emergent video
editing capabilities without explicit supervision, thereby alleviating the
constraints imposed by scarce video training data. (2) By incorporating
modality-specific MLLM features, our approach effectively unifies image and
video editing tasks within a single model. Extensive experiments demonstrate
that our method can handle a broad range of image and video editing tasks and
achieves state-of-the-art performance.