ChatPaper.aiChatPaper

UniVid: El Modelo Unificado de Video de Código Abierto

UniVid: The Open-Source Unified Video Model

September 29, 2025
Autores: Jiabin Luo, Junhui Lin, Zeyu Zhang, Biao Wu, Meng Fang, Ling Chen, Hao Tang
cs.AI

Resumen

La modelización unificada de video que combina capacidades de generación y comprensión es cada vez más importante, pero enfrenta dos desafíos clave: mantener la fidelidad semántica durante la generación basada en flujo debido al desequilibrio entre tokens textuales y visuales, y las limitaciones de la atención multimodal uniforme a lo largo de la trayectoria del flujo, así como extender de manera eficiente los MLLM centrados en imágenes al video sin un costoso reentrenamiento. Presentamos UniVid, una arquitectura unificada que acopla un MLLM con un decodificador de difusión a través de un adaptador ligero, permitiendo tanto la comprensión como la generación de video. Introducimos la Alineación de Modalidad por Temperatura para mejorar la adherencia a las indicaciones y la Reflexión en Pirámide para un razonamiento temporal eficiente mediante la selección dinámica de fotogramas clave. Experimentos exhaustivos en benchmarks estándar demuestran un rendimiento de vanguardia, logrando una mejora del 2.2% en la puntuación total de VBench-Long en comparación con EasyAnimateV5.1, y ganancias de precisión del 1.0% y 3.3% en MSVD-QA y ActivityNet-QA, respectivamente, en comparación con los mejores baselines previos de 7B.
English
Unified video modeling that combines generation and understanding capabilities is increasingly important but faces two key challenges: maintaining semantic faithfulness during flow-based generation due to text-visual token imbalance and the limitations of uniform cross-modal attention across the flow trajectory, and efficiently extending image-centric MLLMs to video without costly retraining. We present UniVid, a unified architecture that couples an MLLM with a diffusion decoder through a lightweight adapter, enabling both video understanding and generation. We introduce Temperature Modality Alignment to improve prompt adherence and Pyramid Reflection for efficient temporal reasoning via dynamic keyframe selection. Extensive experiments on standard benchmarks demonstrate state-of-the-art performance, achieving a 2.2% improvement on VBench-Long total score compared to EasyAnimateV5.1, and 1.0% and 3.3% accuracy gains on MSVD-QA and ActivityNet-QA, respectively, compared with the best prior 7B baselines.
PDF32September 30, 2025