UniVBench: Op weg naar een uniforme evaluatie voor videofundamentmodellen

Samenvatting

Videofundamentmodellen streven ernaar videobegrip, -generatie, -bewerking en instructie-opvolging te integreren binnen één enkel raamwerk, waardoor ze een centrale richting vormen voor de volgende generatie multimodale systemen. Bestaande evaluatiebenchmarks blijven echter gefragmenteerd en beperkt in reikwijdte, omdat ze elk gericht zijn op een enkele taak, gebruikmaken van taakspecifieke metrieken en doorgaans korte of eenvoudige videoclips gebruiken. Hierdoor vangen ze de verenigde capaciteiten die deze modellen moeten leveren niet. Om deze leemte te adresseren, introduceren we UniVBench, een benchmark die speciaal is ontwikkeld voor het evalueren van videofundamentmodellen op vier kernvaardigheden: videobegrip, videogeneratie, videobewerking en een nieuw voorgestelde taak, videoreconstructie, die beoordeelt hoe getrouw een model videocontent die het heeft verwerkt kan reproduceren. Onze benchmark vergroot de complexiteit van evaluatie aanzienlijk door 200 hoogwaardige, diverse en multi-shot video's te incorporeren, elk gekoppeld aan gedetailleerde bijschriften, bewerkingsinstructies in meerdere formaten en referentiebeelden. Alle video's zijn door mensen gemaakt en zorgvuldig gevalideerd, en bieden rijkere cinematografische informatie dan eerdere benchmarks. Daarnaast ontwikkelen we een verenigd agent-gebaseerd evaluatiesysteem (UniV-Eval) dat prompting, instructieparsing en scoring voor alle taken standaardiseert, waardoor eerlijke, schaalbare en reproduceerbare vergelijkingen van verenigde videomodellen mogelijk worden. Door evaluatie te verankeren in op instructies gebaseerde multi-shot videotaken, biedt UniVBench het eerste raamwerk voor het meten van de geïntegreerde capaciteiten die videofundamentmodellen nastreven. Uitgebreide menselijke annotaties zorgen ervoor dat onze evaluatie aansluit bij menselijk oordeel, wat rigoureuze beoordeling mogelijk maakt en de vooruitgang naar robuuste video-intelligentie versnelt.

English

Video foundation models aim to integrate video understanding, generation, editing, and instruction following within a single framework, making them a central direction for next-generation multimodal systems. However, existing evaluation benchmarks remain fragmented and limited in scope, as they each target a single task, rely on task-specific metrics, and typically use short or simple video clips. As a result, they do not capture the unified capabilities that these models are designed to deliver. To address this gap, we introduce UniVBench, a benchmark purpose-built for evaluating video foundation models across four core abilities: video understanding, video generation, video editing, and a newly proposed task, video reconstruction, which assesses how faithfully a model can reproduce video content it has encountered. Our benchmark substantially expands the complexity of evaluation by incorporating 200 high-quality, diverse and multi-shot videos, each paired with detailed captions, multi-format editing instructions, and reference images. All videos are human-created and carefully validated, offering richer cinematic information than prior benchmarks. In addition, we develop a unified agentic evaluation system (UniV-Eval) that standardizes prompting, instruction parsing, and scoring across all tasks, enabling fair, scalable, and reproducible comparisons of unified video models. By grounding evaluation in instruction-based multi-shot video tasks, UniVBench provides the first framework for measuring the integrated capabilities that video foundation models aim to achieve. Extensive human annotations ensure our evaluation aligns with human judgment, enabling rigorous assessment and accelerating progress toward robust video intelligence.

UniVBench: Op weg naar een uniforme evaluatie voor videofundamentmodellen

UniVBench: Towards Unified Evaluation for Video Foundation Models

Samenvatting

Support