ChatPaper.aiChatPaper

UniVid: Il Modello Unificato Open-Source per i Video

UniVid: The Open-Source Unified Video Model

September 29, 2025
Autori: Jiabin Luo, Junhui Lin, Zeyu Zhang, Biao Wu, Meng Fang, Ling Chen, Hao Tang
cs.AI

Abstract

La modellazione video unificata che combina capacità di generazione e comprensione è sempre più importante, ma affronta due sfide chiave: mantenere la fedeltà semantica durante la generazione basata sul flusso a causa dello squilibrio tra token testuali e visivi e le limitazioni dell'attenzione cross-modale uniforme lungo la traiettoria del flusso, e estendere in modo efficiente i modelli linguistici multimodali (MLLM) centrati sulle immagini al video senza costosi riaddestramenti. Presentiamo UniVid, un'architettura unificata che accoppia un MLLM con un decoder di diffusione attraverso un adattatore leggero, abilitando sia la comprensione che la generazione video. Introduciamo l'Allineamento Modale della Temperatura per migliorare l'aderenza ai prompt e la Riflessione a Piramide per un ragionamento temporale efficiente tramite la selezione dinamica di fotogrammi chiave. Esperimenti estesi su benchmark standard dimostrano prestazioni all'avanguardia, con un miglioramento del 2,2% sul punteggio totale di VBench-Long rispetto a EasyAnimateV5.1, e guadagni di accuratezza dell'1,0% e del 3,3% rispettivamente su MSVD-QA e ActivityNet-QA, rispetto ai migliori baseline precedenti da 7B.
English
Unified video modeling that combines generation and understanding capabilities is increasingly important but faces two key challenges: maintaining semantic faithfulness during flow-based generation due to text-visual token imbalance and the limitations of uniform cross-modal attention across the flow trajectory, and efficiently extending image-centric MLLMs to video without costly retraining. We present UniVid, a unified architecture that couples an MLLM with a diffusion decoder through a lightweight adapter, enabling both video understanding and generation. We introduce Temperature Modality Alignment to improve prompt adherence and Pyramid Reflection for efficient temporal reasoning via dynamic keyframe selection. Extensive experiments on standard benchmarks demonstrate state-of-the-art performance, achieving a 2.2% improvement on VBench-Long total score compared to EasyAnimateV5.1, and 1.0% and 3.3% accuracy gains on MSVD-QA and ActivityNet-QA, respectively, compared with the best prior 7B baselines.
PDF32September 30, 2025