SVI-Bench: Eine dynamische Mikrowelt für strategische Video-Intelligenz
SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence
May 29, 2026
Autoren: Yulu Pan, Han Yi, Seongsu Ha, Md Mohaiminul Islam, Benjamin Zhang, Lorenzo Torresani, Gedas Bertasius
cs.AI
Zusammenfassung
Echte Video-Intelligenz erfordert mehr als das Erkennen des Sichtbaren: Sie verlangt nachzuvollziehen, warum Ereignisse ablaufen, vorherzusagen, was sich unter anderen Bedingungen ändern würde, und zu entscheiden, was als Nächstes zu tun ist. Diese Entwicklung von der Wahrnehmung über kausales Schließen und Simulation bis hin zur strategischen Planung bezeichnen wir als Strategische Video-Intelligenz (SVI). Kein existierender Benchmark evaluiert diesen Fähigkeitsstapel: Freie Videodaten entbehren überprüfbarer Ground Truth für kausale und strategische Fragen, während synthetische Umgebungen die Komplexität realer Multiagentensysteme opfern. Um diese Lücke zu schließen, führen wir SVI-Bench ein, einen groß angelegten Benchmark, der Mannschaftssportarten als dynamische Mikrowelt nutzt – er verbindet die Komplexität realer Multiagenten-Interaktion (10 bis 22 Agenten, die unter gegnerischem Druck koordinierte Entscheidungen treffen) mit der Überprüfbarkeit expliziter Regeln und eindeutiger Ergebnisse. SVI-Bench umfasst rund 35.000 Stunden Übertragungsvideo, 15 Millionen annotierte Aktionen, 15.000 Stunden Expertenkommentare, 23.000 Spielberichte und 103.000 strukturierte statistische Aufzeichnungen aus Basketball, Fußball und Eishockey – alles erstellt über eine Daten-Engine, die rohe Spieldaten in ein dichtes, querverwiesenes Korpus umwandelt. Wir ordnen die Evaluation in 9 Aufgaben ein, die eine progressive Hierarchie mit vier Säulen abdecken: Dynamisches Szenenverständnis, Kausales Schließen, Strategische Simulation und Agentische Synthese. Bei der Evaluierung starker multimodaler und agentischer Basislinien stellen wir einen Fähigkeitsabgrund fest: Modelle schneiden bei Wahrnehmungsaufgaben kompetent ab (etwa 73 % Genauigkeit bei feinkörniger Aktionsfragenbeantwortung), fallen aber bei jeder höheren kognitiven Ebene stark ab. Agentische Aufgaben erweisen sich als am schwierigsten: Das stärkste Modell erreicht nur 5 % Genauigkeit, wenn es eigenständig Beweise aus einem Korpus von 1,8 Millionen Clips sammeln und integrieren muss.
English
True video intelligence demands more than recognizing what is visible: it requires reasoning about why events unfold, predicting what would change under different conditions, and deciding what to do next. We refer to this progression, from perception through causal reasoning and simulation to strategic planning, as Strategic Video Intelligence (SVI). No existing benchmark evaluates this capability stack: in-the-wild videos lack verifiable ground truth for causal and strategic questions, while synthetic environments sacrifice the complexity of real multi-agent systems. To bridge this gap, we introduce SVI-Bench, a large-scale benchmark that leverages team sports as a dynamic microworld, combining the complexity of real-world multi-agent interaction (10-22 agents making coordinated decisions under adversarial pressure) with the verifiability of explicit rules and definitive outcomes. SVI-Bench comprises approximately 35K hours of broadcast video, 15M annotated actions, 15K hours of expert commentary, 23K game reports, and 103K structured statistical records across basketball, soccer, and hockey, all constructed via a data engine that transforms raw game data into a dense, cross-referenced corpus. We organize evaluation into 9 tasks spanning a progressive four-pillar hierarchy: Dynamic Scene Understanding, Causal Reasoning, Strategic Simulation, and Agentic Synthesis. Evaluating strong multimodal and agentic baselines, we find a capability cliff: models perform competently on perceptual tasks, achieving approximately 73% on fine-grained action QA, but degrade sharply at each successive cognitive level. Agentic tasks prove hardest: the strongest model achieves only 5% accuracy when required to autonomously gather and integrate evidence across a corpus of 1.8M clips.