ChatPaper.aiChatPaper

InstructX: К унифицированному визуальному редактированию с использованием MLLM-направления

InstructX: Towards Unified Visual Editing with MLLM Guidance

October 9, 2025
Авторы: Chong Mou, Qichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He
cs.AI

Аннотация

С недавними достижениями в области мультимодальных больших языковых моделей (MLLMs), демонстрирующих высокий уровень визуального понимания и рассуждений, растет интерес к их использованию для улучшения производительности моделей диффузии в задачах редактирования. Несмотря на быстрый прогресс, большинство исследований не содержат глубокого анализа проектных решений для MLLMs. Более того, интеграция MLLMs и моделей диффузии остается открытой проблемой в некоторых сложных задачах, таких как редактирование видео. В данной статье мы представляем InstructX — унифицированную платформу для редактирования изображений и видео. В частности, мы проводим всестороннее исследование интеграции MLLMs и моделей диффузии для редактирования на основе инструкций в разнообразных задачах. На основе этого исследования мы анализируем взаимодействие и различия между изображениями и видео в рамках унифицированного моделирования. (1) Мы показываем, что обучение на данных изображений может привести к появлению способностей к редактированию видео без явного контроля, тем самым смягчая ограничения, накладываемые недостатком обучающих данных для видео. (2) Благодаря включению модально-специфичных признаков MLLMs наш подход эффективно объединяет задачи редактирования изображений и видео в рамках одной модели. Многочисленные эксперименты демонстрируют, что наш метод способен справляться с широким спектром задач редактирования изображений и видео и достигает передовых показателей производительности.
English
With recent advances in Multimodal Large Language Models (MLLMs) showing strong visual understanding and reasoning, interest is growing in using them to improve the editing performance of diffusion models. Despite rapid progress, most studies lack an in-depth analysis of MLLM design choices. Moreover, the integration of MLLMs and diffusion models remains an open challenge in some difficult tasks, such as video editing. In this paper, we present InstructX, a unified framework for image and video editing. Specifically, we conduct a comprehensive study on integrating MLLMs and diffusion models for instruction-driven editing across diverse tasks. Building on this study, we analyze the cooperation and distinction between images and videos in unified modeling. (1) We show that training on image data can lead to emergent video editing capabilities without explicit supervision, thereby alleviating the constraints imposed by scarce video training data. (2) By incorporating modality-specific MLLM features, our approach effectively unifies image and video editing tasks within a single model. Extensive experiments demonstrate that our method can handle a broad range of image and video editing tasks and achieves state-of-the-art performance.
PDF133October 10, 2025