Uni-ViGU : Vers une génération et une compréhension vidéo unifiées via un générateur vidéo basé sur la diffusion

Résumé

Les modèles multimodaux unifiés intégrant la compréhension et la génération visuelles font face à un défi fondamental : la génération visuelle engendre des coûts computationnels substantiellement plus élevés que la compréhension, particulièrement pour la vidéo. Ce déséquilibre nous motive à inverser le paradigme conventionnel : plutôt que d'étendre les MLLM axés sur la compréhension pour supporter la génération, nous proposons Uni-ViGU, un cadre unifiant la génération et la compréhension vidéo en étendant un générateur vidéo comme fondation. Nous introduisons une méthode de flux unifié qui effectue un appariement de flux continu pour la vidéo et un appariement de flux discret pour le texte au sein d'un processus unique, permettant une génération multimodale cohérente. Nous proposons en outre un cadre basé sur MoE piloté par la modalité, qui augmente les blocs Transformer avec des couches légères pour la génération de texte tout en préservant les connaissances génératives préalables. Pour réutiliser les connaissances de génération à des fins de compréhension, nous concevons un mécanisme d'entraînement bidirectionnel en deux étapes : le Rappel de Connaissance reconstruit les invites d'entrée pour exploiter les correspondances texte-vidéo apprises, tandis que le Raffinement des Capacités effectue un apprentissage fin sur des descriptions détaillées pour établir des représentations partagées discriminatives. Les expériences démontrent qu'Uni-ViGU atteint des performances compétitives à la fois en génération et en compréhension vidéo, validant les architectures centrées sur la génération comme une voie évolutive vers une intelligence multimodale unifiée. Page du projet et code : https://fr0zencrane.github.io/uni-vigu-page/.

English

Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.

Uni-ViGU : Vers une génération et une compréhension vidéo unifiées via un générateur vidéo basé sur la diffusion

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

Résumé

Support