UniVid: Das Open-Source-Modell für einheitliche Videoverarbeitung
UniVid: The Open-Source Unified Video Model
September 29, 2025
papers.authors: Jiabin Luo, Junhui Lin, Zeyu Zhang, Biao Wu, Meng Fang, Ling Chen, Hao Tang
cs.AI
papers.abstract
Einheitliche Videomodellierung, die Erzeugungs- und Verständnisfähigkeiten kombiniert, gewinnt zunehmend an Bedeutung, steht jedoch vor zwei zentralen Herausforderungen: die Wahrung der semantischen Treue während der flussbasierten Erzeugung aufgrund des Ungleichgewichts zwischen Text- und visuellen Tokens sowie die Beschränkungen der einheitlichen cross-modalen Aufmerksamkeit über den Flusspfad hinweg, und die effiziente Erweiterung von bildzentrierten MLLMs auf Videos ohne kostspieliges Neutraining. Wir präsentieren UniVid, eine einheitliche Architektur, die ein MLLM mit einem Diffusionsdecoder über einen leichtgewichtigen Adapter koppelt und sowohl das Verständnis als auch die Erzeugung von Videos ermöglicht. Wir führen die Temperatur-Modalitätsausrichtung ein, um die Einhaltung von Prompts zu verbessern, und die Pyramidenspiegelung für effizientes zeitliches Schließen durch dynamische Schlüsselbildauswahl. Umfangreiche Experimente auf Standard-Benchmarks demonstrieren Spitzenleistungen, mit einer Verbesserung von 2,2 % auf der VBench-Long-Gesamtpunktzahl im Vergleich zu EasyAnimateV5.1 sowie Genauigkeitssteigerungen von 1,0 % und 3,3 % auf MSVD-QA und ActivityNet-QA im Vergleich zu den besten vorherigen 7B-Baselines.
English
Unified video modeling that combines generation and understanding
capabilities is increasingly important but faces two key challenges:
maintaining semantic faithfulness during flow-based generation due to
text-visual token imbalance and the limitations of uniform cross-modal
attention across the flow trajectory, and efficiently extending image-centric
MLLMs to video without costly retraining. We present UniVid, a unified
architecture that couples an MLLM with a diffusion decoder through a
lightweight adapter, enabling both video understanding and generation. We
introduce Temperature Modality Alignment to improve prompt adherence and
Pyramid Reflection for efficient temporal reasoning via dynamic keyframe
selection. Extensive experiments on standard benchmarks demonstrate
state-of-the-art performance, achieving a 2.2% improvement on VBench-Long total
score compared to EasyAnimateV5.1, and 1.0% and 3.3% accuracy gains on MSVD-QA
and ActivityNet-QA, respectively, compared with the best prior 7B baselines.