ChatPaper.aiChatPaper

Uni-ViGU: Auf dem Weg zu einer vereinheitlichten Video-Generierung und -Verständnis durch einen diffusionsbasierten Video-Generator

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

April 9, 2026
Autoren: Luozheng Qin, Jia Gong, Qian Qiao, Tianjiao Li, Li Xu, Haoyu Pan, Chao Qu, Zhiyu Tan, Hao Li
cs.AI

Zusammenfassung

Einheitliche multimodale Modelle, die visuelles Verständnis und Generierung integrieren, stehen vor einer grundlegenden Herausforderung: Visuelle Generierung verursacht wesentlich höhere Rechenkosten als Verstehen, insbesondere bei Video. Dieses Ungleichgewicht motiviert uns, das konventionelle Paradigma umzukehren: Anstatt verständniszentrierte MLLMs um Generierung zu erweitern, schlagen wir Uni-ViGU vor, einen Rahmen, der Video-Generierung und -Verständnis vereinheitlicht, indem ein Video-Generator als Grundlage erweitert wird. Wir führen eine einheitliche Flow-Methode ein, die kontinuierliches Flow-Matching für Video und diskretes Flow-Matching für Text in einem einzigen Prozess durchführt und so kohärente multimodale Generierung ermöglicht. Weiterhin schlagen wir ein modaltätsgesteuertes, auf Mixture-of-Experts (MoE) basierendes Framework vor, das Transformer-Blöcke mit leichtgewichtigen Schichten für Textgenerierung erweitert und dabei generative Priors bewahrt. Um Generierungswissen für das Verstehen nutzbar zu machen, entwerfen wir einen bidirektionalen Trainingsmechanismus mit zwei Stufen: Knowledge Recall rekonstruiert Eingabe-Prompts, um gelernte Text-Video-Korrespondenzen zu nutzen, während Capability Refinement anhand detaillierter Bildunterschriften feinjustiert wird, um diskriminative gemeinsame Repräsentationen zu etablieren. Experimente zeigen, dass Uni-ViGU wettbewerbsfähige Leistung sowohl in Video-Generierung als auch -Verständnis erreicht und damit generierungszentrierte Architekturen als skalierbaren Weg zu vereinheitlichter multimodaler Intelligenz validiert. Projektseite und Code: https://fr0zencrane.github.io/uni-vigu-page/.
English
Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.
PDF392April 15, 2026