InstructX: Auf dem Weg zu einheitlicher visueller Bearbeitung mit MLLM-Unterstützung
InstructX: Towards Unified Visual Editing with MLLM Guidance
October 9, 2025
papers.authors: Chong Mou, Qichao Sun, Yanze Wu, Pengze Zhang, Xinghui Li, Fulong Ye, Songtao Zhao, Qian He
cs.AI
papers.abstract
Mit den jüngsten Fortschritten bei Multimodalen Großen Sprachmodellen (MLLMs), die ein starkes visuelles Verständnis und logisches Denken zeigen, wächst das Interesse daran, sie zur Verbesserung der Bearbeitungsleistung von Diffusionsmodellen einzusetzen. Trotz rasanter Fortschritte fehlt den meisten Studien eine tiefgehende Analyse der Designentscheidungen von MLLMs. Darüber hinaus bleibt die Integration von MLLMs und Diffusionsmodellen in einigen schwierigen Aufgaben, wie der Videobearbeitung, eine offene Herausforderung. In diesem Artikel präsentieren wir InstructX, ein einheitliches Framework für die Bild- und Videobearbeitung. Insbesondere führen wir eine umfassende Studie zur Integration von MLLMs und Diffusionsmodellen für anweisungsgesteuerte Bearbeitung über verschiedene Aufgaben hinweg durch. Aufbauend auf dieser Studie analysieren wir die Zusammenarbeit und Unterscheidung zwischen Bildern und Videos in der einheitlichen Modellierung. (1) Wir zeigen, dass das Training mit Bilddaten zu emergenten Fähigkeiten in der Videobearbeitung ohne explizite Überwachung führen kann, wodurch die Einschränkungen durch knappe Videotrainingsdaten gemildert werden. (2) Durch die Einbindung modalspezifischer MLLM-Merkmale vereint unser Ansatz effektiv Bild- und Videobearbeitungsaufgaben in einem einzigen Modell. Umfangreiche Experimente demonstrieren, dass unsere Methode eine breite Palette von Bild- und Videobearbeitungsaufgaben bewältigen kann und state-of-the-art Leistungen erzielt.
English
With recent advances in Multimodal Large Language Models (MLLMs) showing
strong visual understanding and reasoning, interest is growing in using them to
improve the editing performance of diffusion models. Despite rapid progress,
most studies lack an in-depth analysis of MLLM design choices. Moreover, the
integration of MLLMs and diffusion models remains an open challenge in some
difficult tasks, such as video editing. In this paper, we present InstructX, a
unified framework for image and video editing. Specifically, we conduct a
comprehensive study on integrating MLLMs and diffusion models for
instruction-driven editing across diverse tasks. Building on this study, we
analyze the cooperation and distinction between images and videos in unified
modeling. (1) We show that training on image data can lead to emergent video
editing capabilities without explicit supervision, thereby alleviating the
constraints imposed by scarce video training data. (2) By incorporating
modality-specific MLLM features, our approach effectively unifies image and
video editing tasks within a single model. Extensive experiments demonstrate
that our method can handle a broad range of image and video editing tasks and
achieves state-of-the-art performance.