UniVBench: 비디오 파운데이션 모델 통합 평가를 위한 프레임워크
UniVBench: Towards Unified Evaluation for Video Foundation Models
February 25, 2026
저자: Jianhui Wei, Xiaotian Zhang, Yichen Li, Yuan Wang, Yan Zhang, Ziyi Chen, Zhihang Tang, Wei Xu, Zuozhu Liu
cs.AI
초록
비디오 파운데이션 모델은 비디오 이해, 생성, 편집 및 지시 따르기를 단일 프레임워크로 통합하여 차세대 멀티모달 시스템의 핵심 방향으로 부상하고 있습니다. 그러나 기존 평가 벤치마크는 단일 작업을 대상으로 하고, 작업별 메트릭에 의존하며, 일반적으로 짧거나 단순한 비디오 클립을 사용함에 따라 분열되어 있고 범위가 제한적입니다. 결과적으로 이러한 모델이 제공하도록 설계된 통합 능력을 제대로 평가하지 못하고 있습니다. 이러한 격차를 해결하기 위해 본 논문에서는 비디오 이해, 비디오 생성, 비디오 편집 및 모델이 접한 비디오 콘텐츠를 얼마나 정확하게 재현하는지 평가하는 새로 제안된 작업인 비디오 재구성이라는 네 가지 핵심 능력에 걸쳐 비디오 파운데이션 모델을 평가하기 위해 특별히 구축된 벤치마크인 UniVBench을 소개합니다. 당사의 벤치마크는 고품질의 다양하고 멀티샷으로 구성된 200개의 비디오와 각각에 대한 상세한 캡션, 다양한 형식의 편집 지침, 참조 이미지를 포함하여 평가의 복잡성을 크게 확장합니다. 모든 비디오는 인간이 제작하고 신중하게 검증되어 기존 벤치마크보다 풍부한 시네마틱 정보를 제공합니다. 또한 모든 작업에 걸쳐 프롬프팅, 지침 파싱 및 채점을 표준화하는 통합 에이전트 평가 시스템(UniV-Eval)을 개발하여 통합 비디오 모델의 공정하고 확장 가능하며 재현 가능한 비교를 가능하게 합니다. 지시 기반 멀티샷 비디오 작업에 기반한 평가를 통해 UniVBench은 비디오 파운데이션 모델이 달성하고자 하는 통합 능력을 측정하는 최초의 프레임워크를 제공합니다. 광범위한 인간 주해를 통해 평가가 인간의 판단과 일치하도록 하여 엄격한 평가를 가능하게 하고 강건한 비디오 인텔리전스 발전을 가속화합니다.
English
Video foundation models aim to integrate video understanding, generation, editing, and instruction following within a single framework, making them a central direction for next-generation multimodal systems. However, existing evaluation benchmarks remain fragmented and limited in scope, as they each target a single task, rely on task-specific metrics, and typically use short or simple video clips. As a result, they do not capture the unified capabilities that these models are designed to deliver. To address this gap, we introduce UniVBench, a benchmark purpose-built for evaluating video foundation models across four core abilities: video understanding, video generation, video editing, and a newly proposed task, video reconstruction, which assesses how faithfully a model can reproduce video content it has encountered. Our benchmark substantially expands the complexity of evaluation by incorporating 200 high-quality, diverse and multi-shot videos, each paired with detailed captions, multi-format editing instructions, and reference images. All videos are human-created and carefully validated, offering richer cinematic information than prior benchmarks. In addition, we develop a unified agentic evaluation system (UniV-Eval) that standardizes prompting, instruction parsing, and scoring across all tasks, enabling fair, scalable, and reproducible comparisons of unified video models. By grounding evaluation in instruction-based multi-shot video tasks, UniVBench provides the first framework for measuring the integrated capabilities that video foundation models aim to achieve. Extensive human annotations ensure our evaluation aligns with human judgment, enabling rigorous assessment and accelerating progress toward robust video intelligence.