Uni-ViGU: Auf dem Weg zu einer vereinheitlichten Video-Generierung und -Verständnis durch einen diffusionsbasierten Video-Generator

Zusammenfassung

Einheitliche multimodale Modelle, die visuelles Verständnis und Generierung integrieren, stehen vor einer grundlegenden Herausforderung: Visuelle Generierung verursacht wesentlich höhere Rechenkosten als Verstehen, insbesondere bei Video. Dieses Ungleichgewicht motiviert uns, das konventionelle Paradigma umzukehren: Anstatt verständniszentrierte MLLMs um Generierung zu erweitern, schlagen wir Uni-ViGU vor, einen Rahmen, der Video-Generierung und -Verständnis vereinheitlicht, indem ein Video-Generator als Grundlage erweitert wird. Wir führen eine einheitliche Flow-Methode ein, die kontinuierliches Flow-Matching für Video und diskretes Flow-Matching für Text in einem einzigen Prozess durchführt und so kohärente multimodale Generierung ermöglicht. Weiterhin schlagen wir ein modaltätsgesteuertes, auf Mixture-of-Experts (MoE) basierendes Framework vor, das Transformer-Blöcke mit leichtgewichtigen Schichten für Textgenerierung erweitert und dabei generative Priors bewahrt. Um Generierungswissen für das Verstehen nutzbar zu machen, entwerfen wir einen bidirektionalen Trainingsmechanismus mit zwei Stufen: Knowledge Recall rekonstruiert Eingabe-Prompts, um gelernte Text-Video-Korrespondenzen zu nutzen, während Capability Refinement anhand detaillierter Bildunterschriften feinjustiert wird, um diskriminative gemeinsame Repräsentationen zu etablieren. Experimente zeigen, dass Uni-ViGU wettbewerbsfähige Leistung sowohl in Video-Generierung als auch -Verständnis erreicht und damit generierungszentrierte Architekturen als skalierbaren Weg zu vereinheitlichter multimodaler Intelligenz validiert. Projektseite und Code: https://fr0zencrane.github.io/uni-vigu-page/.

English

Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.

Uni-ViGU: Auf dem Weg zu einer vereinheitlichten Video-Generierung und -Verständnis durch einen diffusionsbasierten Video-Generator

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

Zusammenfassung

Support