Uni-ViGU: Verso un Sistema Unificato per la Generazione e Comprensione Video tramite un Generatore di Video Basato su Diffusione

Abstract

I modelli multimodali unificati che integrano comprensione e generazione visiva affrontano una sfida fondamentale: la generazione visiva comporta costi computazionali sostanzialmente più elevati rispetto alla comprensione, in particolare per il video. Questo squilibrio ci motiva a invertire il paradigma convenzionale: piuttosto che estendere i modelli linguistici multimodali orientati alla comprensione per supportare la generazione, proponiamo Uni-ViGU, un framework che unifica la generazione e la comprensione video estendendo un generatore video come base. Introduciamo un metodo di flusso unificato che esegue il *flow matching* continuo per il video e quello discreto per il testo all'interno di un unico processo, abilitando una generazione multimodale coerente. Proponiamo ulteriormente un framework basato su MoE (*Mixture of Experts*) guidato dalla modalità, che potenzia i blocchi Transformer con layer leggeri per la generazione testuale preservando al contempo i priori generativi. Per riutilizzare la conoscenza generativa per la comprensione, progettiamo un meccanismo di addestramento bidirezionale con due stadi: il *Knowledge Recall* ricostruisce i prompt di input per sfruttare le corrispondenze testo-video apprese, mentre il *Capability Refinement* effettua un fine-tuning su didascalie dettagliate per stabilire rappresentazioni condivise discriminative. Gli esperimenti dimostrano che Uni-ViGU raggiunge prestazioni competitive sia nella generazione che nella comprensione video, validando le architetture incentrate sulla generazione come percorso scalabile verso un'intelligenza multimodale unificata. Pagina del Progetto e Codice: https://fr0zencrane.github.io/uni-vigu-page/.

English

Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.

Uni-ViGU: Verso un Sistema Unificato per la Generazione e Comprensione Video tramite un Generatore di Video Basato su Diffusione

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

Abstract

Support