Uni-ViGU: Naar een geünificeerde videogeneratie en -begrip via een op diffusie gebaseerde videogenerator

Samenvatting

Unified multimodale modellen die visueel begrip en generatie integreren, staan voor een fundamentele uitdaging: visuele generatie brengt aanzienlijk hogere computationele kosten met zich mee dan begrip, vooral voor video. Deze disbalans motiveert ons om het conventionele paradigma om te keren: in plaats van begripsgecentreerde MLLMs uit te breiden om generatie te ondersteunen, stellen we Uni-ViGU voor, een framework dat videogeneratie en -begrip verenigt door een videogenerator als fundament uit te breiden. We introduceren een unified flow-methode die continue flow matching voor video en discrete flow matching voor tekst binnen één enkel proces uitvoert, waardoor coherente multimodale generatie mogelijk wordt. Verder stellen we een modality-driven MoE-gebaseerd framework voor dat Transformer-blokken verrijkt met lichtgewicht lagen voor tekstgeneratie, terwijl generatieve priors behouden blijven. Om generatiekennis voor begrip in te zetten, ontwerpen we een bidirectioneel trainingsmechanisme met twee fasen: Knowledge Recall reconstrueert invoerprompts om geleerde tekst-video-correspondenties te benutten, terwijl Capability Refinement fine-tuning uitvoert op gedetailleerde bijschriften om onderscheidende gedeelde representaties te establissen. Experimenten tonen aan dat Uni-ViGU competitieve prestaties levert op zowel videogeneratie als -begrip, wat generatiegecentreerde architecturen valideert als een schaalbare weg naar verenigde multimodale intelligentie. Projectpagina en code: https://fr0zencrane.github.io/uni-vigu-page/.

English

Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.

Uni-ViGU: Naar een geünificeerde videogeneratie en -begrip via een op diffusie gebaseerde videogenerator

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

Samenvatting

Support