Uni-ViGU: Naar een geünificeerde videogeneratie en -begrip via een op diffusie gebaseerde videogenerator
Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator
April 9, 2026
Auteurs: Luozheng Qin, Jia Gong, Qian Qiao, Tianjiao Li, Li Xu, Haoyu Pan, Chao Qu, Zhiyu Tan, Hao Li
cs.AI
Samenvatting
Unified multimodale modellen die visueel begrip en generatie integreren, staan voor een fundamentele uitdaging: visuele generatie brengt aanzienlijk hogere computationele kosten met zich mee dan begrip, vooral voor video. Deze disbalans motiveert ons om het conventionele paradigma om te keren: in plaats van begripsgecentreerde MLLMs uit te breiden om generatie te ondersteunen, stellen we Uni-ViGU voor, een framework dat videogeneratie en -begrip verenigt door een videogenerator als fundament uit te breiden. We introduceren een unified flow-methode die continue flow matching voor video en discrete flow matching voor tekst binnen één enkel proces uitvoert, waardoor coherente multimodale generatie mogelijk wordt. Verder stellen we een modality-driven MoE-gebaseerd framework voor dat Transformer-blokken verrijkt met lichtgewicht lagen voor tekstgeneratie, terwijl generatieve priors behouden blijven. Om generatiekennis voor begrip in te zetten, ontwerpen we een bidirectioneel trainingsmechanisme met twee fasen: Knowledge Recall reconstrueert invoerprompts om geleerde tekst-video-correspondenties te benutten, terwijl Capability Refinement fine-tuning uitvoert op gedetailleerde bijschriften om onderscheidende gedeelde representaties te establissen. Experimenten tonen aan dat Uni-ViGU competitieve prestaties levert op zowel videogeneratie als -begrip, wat generatiegecentreerde architecturen valideert als een schaalbare weg naar verenigde multimodale intelligentie. Projectpagina en code: https://fr0zencrane.github.io/uni-vigu-page/.
English
Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.