ChatPaper.aiChatPaper

UniVid: Открытая унифицированная модель для работы с видео

UniVid: The Open-Source Unified Video Model

September 29, 2025
Авторы: Jiabin Luo, Junhui Lin, Zeyu Zhang, Biao Wu, Meng Fang, Ling Chen, Hao Tang
cs.AI

Аннотация

Унифицированное моделирование видео, объединяющее возможности генерации и понимания, становится все более важным, но сталкивается с двумя ключевыми проблемами: сохранение семантической точности при генерации на основе потоков из-за дисбаланса текстовых и визуальных токенов и ограничений равномерного кросс-модального внимания вдоль траектории потока, а также эффективное расширение MLLM, ориентированных на изображения, на видео без затратного переобучения. Мы представляем UniVid, унифицированную архитектуру, которая связывает MLLM с диффузионным декодером через легковесный адаптер, обеспечивая как понимание, так и генерацию видео. Мы вводим метод Temperature Modality Alignment для улучшения соответствия запросам и Pyramid Reflection для эффективного временного анализа через динамический выбор ключевых кадров. Экстенсивные эксперименты на стандартных бенчмарках демонстрируют передовые результаты, показывая улучшение на 2.2% по общему баллу VBench-Long по сравнению с EasyAnimateV5.1, а также повышение точности на 1.0% и 3.3% на MSVD-QA и ActivityNet-QA соответственно по сравнению с лучшими предыдущими 7B базовыми моделями.
English
Unified video modeling that combines generation and understanding capabilities is increasingly important but faces two key challenges: maintaining semantic faithfulness during flow-based generation due to text-visual token imbalance and the limitations of uniform cross-modal attention across the flow trajectory, and efficiently extending image-centric MLLMs to video without costly retraining. We present UniVid, a unified architecture that couples an MLLM with a diffusion decoder through a lightweight adapter, enabling both video understanding and generation. We introduce Temperature Modality Alignment to improve prompt adherence and Pyramid Reflection for efficient temporal reasoning via dynamic keyframe selection. Extensive experiments on standard benchmarks demonstrate state-of-the-art performance, achieving a 2.2% improvement on VBench-Long total score compared to EasyAnimateV5.1, and 1.0% and 3.3% accuracy gains on MSVD-QA and ActivityNet-QA, respectively, compared with the best prior 7B baselines.
PDF32September 30, 2025