UniVid : Le modèle unifié de vidéo open-source
UniVid: The Open-Source Unified Video Model
September 29, 2025
papers.authors: Jiabin Luo, Junhui Lin, Zeyu Zhang, Biao Wu, Meng Fang, Ling Chen, Hao Tang
cs.AI
papers.abstract
La modélisation vidéo unifiée qui combine les capacités de génération et de compréhension devient de plus en plus importante, mais elle est confrontée à deux défis majeurs : maintenir la fidélité sémantique lors de la génération basée sur le flux en raison du déséquilibre entre les tokens textuels et visuels, ainsi que les limitations de l'attention intermodale uniforme tout au long de la trajectoire du flux, et étendre efficacement les modèles de langage multimodaux (MLLM) centrés sur l'image à la vidéo sans nécessiter un réentraînement coûteux. Nous présentons UniVid, une architecture unifiée qui couple un MLLM avec un décodeur de diffusion via un adaptateur léger, permettant à la fois la compréhension et la génération de vidéos. Nous introduisons l'alignement modal par température pour améliorer l'adhésion aux prompts et la réflexion pyramidale pour un raisonnement temporel efficace via la sélection dynamique d'images clés. Des expériences approfondies sur des benchmarks standards démontrent des performances de pointe, avec une amélioration de 2,2 % sur le score total de VBench-Long par rapport à EasyAnimateV5.1, et des gains de précision de 1,0 % et 3,3 % sur MSVD-QA et ActivityNet-QA, respectivement, par rapport aux meilleurs modèles de référence antérieurs de 7 milliards de paramètres.
English
Unified video modeling that combines generation and understanding
capabilities is increasingly important but faces two key challenges:
maintaining semantic faithfulness during flow-based generation due to
text-visual token imbalance and the limitations of uniform cross-modal
attention across the flow trajectory, and efficiently extending image-centric
MLLMs to video without costly retraining. We present UniVid, a unified
architecture that couples an MLLM with a diffusion decoder through a
lightweight adapter, enabling both video understanding and generation. We
introduce Temperature Modality Alignment to improve prompt adherence and
Pyramid Reflection for efficient temporal reasoning via dynamic keyframe
selection. Extensive experiments on standard benchmarks demonstrate
state-of-the-art performance, achieving a 2.2% improvement on VBench-Long total
score compared to EasyAnimateV5.1, and 1.0% and 3.3% accuracy gains on MSVD-QA
and ActivityNet-QA, respectively, compared with the best prior 7B baselines.