SVI-Bench: een dynamische microwereld voor strategische video-intelligentie
SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence
May 29, 2026
Auteurs: Yulu Pan, Han Yi, Seongsu Ha, Md Mohaiminul Islam, Benjamin Zhang, Lorenzo Torresani, Gedas Bertasius
cs.AI
Samenvatting
Echte video-intelligentie vereist meer dan alleen herkennen wat zichtbaar is: het vraagt om redeneren over waarom gebeurtenissen zich ontvouwen, voorspellen wat er zou veranderen onder verschillende omstandigheden, en beslissen wat er vervolgens moet gebeuren. We verwijzen naar deze progressie, van perceptie via causaal redeneren en simulatie naar strategische planning, als Strategische Video-Intelligentie (SVI). Geen enkele bestaande benchmark evalueert deze stapel van capaciteiten: video's uit de praktijk missen verifieerbare grondwaarheid voor causale en strategische vragen, terwijl synthetische omgevingen de complexiteit van echte multi-agent systemen opofferen. Om deze kloof te overbruggen introduceren we SVI-Bench, een grootschalige benchmark die gebruikmaakt van teamsporten als een dynamische microwereld, waarbij de complexiteit van echte multi-agent interactie (10-22 agenten die gecoördineerde beslissingen nemen onder tegenstandersdruk) wordt gecombineerd met de verifieerbaarheid van expliciete regels en definitieve uitkomsten. SVI-Bench omvat ongeveer 35.000 uur aan uitzendvideo's, 15 miljoen geannoteerde acties, 15.000 uur aan expertcommentaar, 23.000 wedstrijdverslagen en 103.000 gestructureerde statistische gegevens voor basketbal, voetbal en hockey, allemaal geconstrueerd via een data-engine die ruwe wedstrijdgegevens omzet in een dicht, cross-referentieel corpus. We organiseren de evaluatie in 9 taken die een progressieve vierpijlerhiërarchie omspannen: Dynamisch Scènebegrip, Causal Redeneren, Strategische Simulatie en Agentische Synthese. Bij het evalueren van sterke multimodale en agentische baselines vinden we een capaciteitenklif: modellen presteren competent op perceptuele taken, met ongeveer 73% nauwkeurigheid bij fijnmazige actie-vragen, maar dalen scherp bij elk opeenvolgend cognitief niveau. Agentische taken blijken het moeilijkst: het sterkste model behaalt slechts 5% nauwkeurigheid wanneer het autonoom bewijs moet verzamelen en integreren uit een corpus van 1,8 miljoen clips.
English
True video intelligence demands more than recognizing what is visible: it requires reasoning about why events unfold, predicting what would change under different conditions, and deciding what to do next. We refer to this progression, from perception through causal reasoning and simulation to strategic planning, as Strategic Video Intelligence (SVI). No existing benchmark evaluates this capability stack: in-the-wild videos lack verifiable ground truth for causal and strategic questions, while synthetic environments sacrifice the complexity of real multi-agent systems. To bridge this gap, we introduce SVI-Bench, a large-scale benchmark that leverages team sports as a dynamic microworld, combining the complexity of real-world multi-agent interaction (10-22 agents making coordinated decisions under adversarial pressure) with the verifiability of explicit rules and definitive outcomes. SVI-Bench comprises approximately 35K hours of broadcast video, 15M annotated actions, 15K hours of expert commentary, 23K game reports, and 103K structured statistical records across basketball, soccer, and hockey, all constructed via a data engine that transforms raw game data into a dense, cross-referenced corpus. We organize evaluation into 9 tasks spanning a progressive four-pillar hierarchy: Dynamic Scene Understanding, Causal Reasoning, Strategic Simulation, and Agentic Synthesis. Evaluating strong multimodal and agentic baselines, we find a capability cliff: models perform competently on perceptual tasks, achieving approximately 73% on fine-grained action QA, but degrade sharply at each successive cognitive level. Agentic tasks prove hardest: the strongest model achieves only 5% accuracy when required to autonomously gather and integrate evidence across a corpus of 1.8M clips.