UniVid: O Modelo Unificado de Vídeo de Código Aberto
UniVid: The Open-Source Unified Video Model
September 29, 2025
Autores: Jiabin Luo, Junhui Lin, Zeyu Zhang, Biao Wu, Meng Fang, Ling Chen, Hao Tang
cs.AI
Resumo
A modelagem unificada de vídeo que combina capacidades de geração e compreensão
torna-se cada vez mais importante, mas enfrenta dois desafios principais:
manter a fidelidade semântica durante a geração baseada em fluxo devido ao
desequilíbrio entre tokens textuais e visuais e as limitações da atenção
cross-modal uniforme ao longo da trajetória do fluxo, e estender de forma eficiente
MLLMs centrados em imagem para vídeo sem retreinamento custoso. Apresentamos o UniVid,
uma arquitetura unificada que acopla um MLLM a um decodificador de difusão por meio de
um adaptador leve, permitindo tanto a compreensão quanto a geração de vídeo. Introduzimos
o Alinhamento de Modalidade por Temperatura para melhorar a aderência a prompts e a
Reflexão em Pirâmide para raciocínio temporal eficiente por meio de seleção dinâmica de
keyframes. Experimentos extensos em benchmarks padrão demonstram desempenho de ponta,
alcançando uma melhoria de 2,2% no score total do VBench-Long em comparação com o EasyAnimateV5.1,
e ganhos de precisão de 1,0% e 3,3% no MSVD-QA e ActivityNet-QA, respectivamente, em relação
aos melhores baselines anteriores de 7B.
English
Unified video modeling that combines generation and understanding
capabilities is increasingly important but faces two key challenges:
maintaining semantic faithfulness during flow-based generation due to
text-visual token imbalance and the limitations of uniform cross-modal
attention across the flow trajectory, and efficiently extending image-centric
MLLMs to video without costly retraining. We present UniVid, a unified
architecture that couples an MLLM with a diffusion decoder through a
lightweight adapter, enabling both video understanding and generation. We
introduce Temperature Modality Alignment to improve prompt adherence and
Pyramid Reflection for efficient temporal reasoning via dynamic keyframe
selection. Extensive experiments on standard benchmarks demonstrate
state-of-the-art performance, achieving a 2.2% improvement on VBench-Long total
score compared to EasyAnimateV5.1, and 1.0% and 3.3% accuracy gains on MSVD-QA
and ActivityNet-QA, respectively, compared with the best prior 7B baselines.