Uni-ViGU: Rumo à Geração e Compreensão Unificadas de Vídeo por Meio de um Gerador de Vídeo Baseado em Difusão

Resumo

Os modelos multimodais unificados que integram compreensão e geração visual enfrentam um desafio fundamental: a geração visual incorre em custos computacionais substancialmente mais elevados do que a compreensão, particularmente para vídeo. Este desequilíbrio motiva-nos a inverter o paradigma convencional: em vez de estender MLLMs centrados na compreensão para suportar geração, propomos Uni-ViGU, uma estrutura que unifica geração e compreensão de vídeo estendendo um gerador de vídeo como base. Introduzimos um método de fluxo unificado que executa correspondência de fluxo contínuo para vídeo e correspondência de fluxo discreto para texto num único processo, permitindo geração multimodal coerente. Propomos ainda uma estrutura baseada em MoE orientada por modalidade que aumenta os blocos Transformer com camadas leves para geração de texto, preservando prioridades generativas. Para redirecionar o conhecimento de geração para compreensão, concebemos um mecanismo de treino bidirecional com duas fases: o Relembrar de Conhecimento reconstrói os prompts de entrada para alavancar correspondências texto-vídeo aprendidas, enquanto o Refinamento de Capacidade afina em legendas detalhadas para estabelecer representações partilhadas discriminativas. Experiências demonstram que o Uni-ViGU alcança desempenho competitivo tanto em geração quanto em compreensão de vídeo, validando arquiteturas centradas na geração como um caminho escalável para inteligência multimodal unificada. Página do Projeto e Código: https://fr0zencrane.github.io/uni-vigu-page/.

English

Unified multimodal models integrating visual understanding and generation face a fundamental challenge: visual generation incurs substantially higher computational costs than understanding, particularly for video. This imbalance motivates us to invert the conventional paradigm: rather than extending understanding-centric MLLMs to support generation, we propose Uni-ViGU, a framework that unifies video generation and understanding by extending a video generator as the foundation. We introduce a unified flow method that performs continuous flow matching for video and discrete flow matching for text within a single process, enabling coherent multimodal generation. We further propose a modality-driven MoE-based framework that augments Transformer blocks with lightweight layers for text generation while preserving generative priors. To repurpose generation knowledge for understanding, we design a bidirectional training mechanism with two stages: Knowledge Recall reconstructs input prompts to leverage learned text-video correspondences, while Capability Refinement fine-tunes on detailed captions to establish discriminative shared representations. Experiments demonstrate that Uni-ViGU achieves competitive performance on both video generation and understanding, validating generation-centric architectures as a scalable path toward unified multimodal intelligence. Project Page and Code: https://fr0zencrane.github.io/uni-vigu-page/.

Uni-ViGU: Rumo à Geração e Compreensão Unificadas de Vídeo por Meio de um Gerador de Vídeo Baseado em Difusão

Uni-ViGU: Towards Unified Video Generation and Understanding via A Diffusion-Based Video Generator

Resumo

Support