UniVid: Het Open-Source Geünificeerde Videomodel
UniVid: The Open-Source Unified Video Model
September 29, 2025
Auteurs: Jiabin Luo, Junhui Lin, Zeyu Zhang, Biao Wu, Meng Fang, Ling Chen, Hao Tang
cs.AI
Samenvatting
Unified video modeling dat generatie- en begripsmogelijkheden combineert, wordt steeds belangrijker maar wordt geconfronteerd met twee belangrijke uitdagingen: het behouden van semantische trouwheid tijdens flow-gebaseerde generatie vanwege een onbalans tussen tekstuele en visuele tokens en de beperkingen van uniforme cross-modale aandacht over de flowtrajectorie, en het efficiënt uitbreiden van beeldgerichte MLLM's naar video zonder kostbare hertraining. Wij presenteren UniVid, een uniforme architectuur die een MLLM koppelt aan een diffusiedecoder via een lichtgewicht adapter, waardoor zowel videobegrip als -generatie mogelijk wordt. We introduceren Temperature Modality Alignment om de promptnaleving te verbeteren en Pyramid Reflection voor efficiënte temporele redenering via dynamische keyframe-selectie. Uitgebreide experimenten op standaard benchmarks tonen state-of-the-art prestaties, met een verbetering van 2,2% op de VBench-Long totale score in vergelijking met EasyAnimateV5.1, en nauwkeurigheidsverbeteringen van 1,0% en 3,3% op respectievelijk MSVD-QA en ActivityNet-QA, vergeleken met de beste eerdere 7B-baselines.
English
Unified video modeling that combines generation and understanding
capabilities is increasingly important but faces two key challenges:
maintaining semantic faithfulness during flow-based generation due to
text-visual token imbalance and the limitations of uniform cross-modal
attention across the flow trajectory, and efficiently extending image-centric
MLLMs to video without costly retraining. We present UniVid, a unified
architecture that couples an MLLM with a diffusion decoder through a
lightweight adapter, enabling both video understanding and generation. We
introduce Temperature Modality Alignment to improve prompt adherence and
Pyramid Reflection for efficient temporal reasoning via dynamic keyframe
selection. Extensive experiments on standard benchmarks demonstrate
state-of-the-art performance, achieving a 2.2% improvement on VBench-Long total
score compared to EasyAnimateV5.1, and 1.0% and 3.3% accuracy gains on MSVD-QA
and ActivityNet-QA, respectively, compared with the best prior 7B baselines.