UniVBench: Hacia una Evaluación Unificada para Modelos Fundamentales de Video
UniVBench: Towards Unified Evaluation for Video Foundation Models
February 25, 2026
Autores: Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu
cs.AI
Resumen
Los modelos de video de base pretenden integrar la comprensión, generación, edición y seguimiento de instrucciones de video dentro de un único marco, posicionándose como una dirección central para los sistemas multimodales de próxima generación. Sin embargo, los puntos de referencia de evaluación existentes siguen estando fragmentados y son limitados en alcance, ya que cada uno se centra en una única tarea, depende de métricas específicas y generalmente utiliza clips de video cortos o simples. Como resultado, no capturan las capacidades unificadas que estos modelos están diseñados para ofrecer. Para abordar esta brecha, presentamos UniVBench, un punto de referencia creado específicamente para evaluar modelos de video de base en cuatro capacidades centrales: comprensión de video, generación de video, edición de video y una tarea recién propuesta, la reconstrucción de video, que evalúa la fidelidad con la que un modelo puede reproducir contenido de video que ha encontrado. Nuestro benchmark expande sustancialmente la complejidad de la evaluación al incorporar 200 videos de alta calidad, diversos y con múltiples planos, cada uno acompañado de descripciones detalladas, instrucciones de edición en múltiples formatos e imágenes de referencia. Todos los videos son creados por humanos y cuidadosamente validados, ofreciendo información cinematográfica más rica que los puntos de referencia anteriores. Además, desarrollamos un sistema de evaluación agentico unificado (UniV-Eval) que estandariza la creación de prompts, el análisis de instrucciones y la puntuación en todas las tareas, permitiendo comparaciones justas, escalables y reproducibles de modelos de video unificados. Al basar la evaluación en tareas de video con múltiples planos basadas en instrucciones, UniVBench proporciona el primer marco para medir las capacidades integradas que los modelos de video de base pretenden alcanzar. Las extensas anotaciones humanas garantizan que nuestra evaluación se alinee con el criterio humano, permitiendo una evaluación rigurosa y acelerando el progreso hacia una inteligencia de video robusta.
English
Video foundation models aim to integrate video understanding, generation, editing, and instruction following within a single framework, making them a central direction for next-generation multimodal systems. However, existing evaluation benchmarks remain fragmented and limited in scope, as they each target a single task, rely on task-specific metrics, and typically use short or simple video clips. As a result, they do not capture the unified capabilities that these models are designed to deliver. To address this gap, we introduce UniVBench, a benchmark purpose-built for evaluating video foundation models across four core abilities: video understanding, video generation, video editing, and a newly proposed task, video reconstruction, which assesses how faithfully a model can reproduce video content it has encountered. Our benchmark substantially expands the complexity of evaluation by incorporating 200 high-quality, diverse and multi-shot videos, each paired with detailed captions, multi-format editing instructions, and reference images. All videos are human-created and carefully validated, offering richer cinematic information than prior benchmarks. In addition, we develop a unified agentic evaluation system (UniV-Eval) that standardizes prompting, instruction parsing, and scoring across all tasks, enabling fair, scalable, and reproducible comparisons of unified video models. By grounding evaluation in instruction-based multi-shot video tasks, UniVBench provides the first framework for measuring the integrated capabilities that video foundation models aim to achieve. Extensive human annotations ensure our evaluation aligns with human judgment, enabling rigorous assessment and accelerating progress toward robust video intelligence.