Uni-ViGU: Hacia la Generación y Comprensión Unificada de Video mediante un Generador de Video Basado en Difusión

Resumen

Los modelos multimodales unificados que integran comprensión y generación visual enfrentan un desafío fundamental: la generación visual conlleva costos computacionales sustancialmente mayores que la comprensión, particularmente para video. Este desequilibrio nos motiva a invertir el paradigma convencional: en lugar de extender MLLMs centrados en comprensión para admitir generación, proponemos Uni-ViGU, un marco que unifica la generación y comprensión de video extendiendo un generador de video como base. Introducimos un método de flujo unificado que realiza *flow matching* continuo para video y *flow matching* discreto para texto dentro de un único proceso, permitiendo una generación multimodal coherente. Además, proponemos un marco basado en Mixtura de Expertos (MoE) impulsado por modalidad, que aumenta los bloques Transformer con capas ligeras para generación de texto mientras preserva *priors* generativos. Para reutilizar el conocimiento de generación en comprensión, diseñamos un mecanismo de entrenamiento bidireccional en dos etapas: *Knowledge Recall* (Recuerdo de Conocimiento) reconstruye los *prompts* de entrada para aprovechar las correspondencias texto-video aprendidas, mientras que *Capability Refinement* (Refinamiento de Capacidad) ajusta el modelo con descripciones detalladas para establecer representaciones compartidas discriminativas. Los experimentos demuestran que Uni-ViGU logra un rendimiento competitivo tanto en generación como en comprensión de video, validando las arquitecturas centradas en generación como un camino escalable hacia una inteligencia multimodal unificada. Página del Proyecto y Código: https://fr0zencrane.github.io/uni-vigu-page/.

English

Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.

Uni-ViGU: Hacia la Generación y Comprensión Unificada de Video mediante un Generador de Video Basado en Difusión

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

Resumen

Support