SVI-Bench : Un micromonde dynamique pour l'intelligence vidéo stratégique

Résumé

La véritable intelligence vidéo exige bien plus que la simple reconnaissance de ce qui est visible : elle nécessite de raisonner sur les causes du déroulement des événements, de prédire ce qui changerait dans des conditions différentes, et de décider de la marche à suivre. Nous désignons cette progression, de la perception au raisonnement causal et à la simulation, jusqu'à la planification stratégique, sous le nom d'Intelligence Vidéo Stratégique (IVS). Aucun banc d'essai existant n'évalue cet ensemble de capacités : les vidéos issues du monde réel manquent de vérité terrain vérifiable pour les questions causales et stratégiques, tandis que les environnements synthétiques sacrifient la complexité des systèmes multi-agents réels. Pour combler cette lacune, nous présentons SVI-Bench, un banc d'essai à grande échelle qui exploite les sports d'équipe comme micromonde dynamique, combinant la complexité des interactions multi-agents réelles (10 à 22 agents prenant des décisions coordonnées sous pression adverse) avec la vérifiabilité de règles explicites et de résultats définitifs. SVI-Bench comprend environ 35 000 heures de vidéo diffusée, 15 millions d'actions annotées, 15 000 heures de commentaires d'experts, 23 000 comptes rendus de matchs et 103 000 enregistrements statistiques structurés couvrant le basket-ball, le football et le hockey, le tout construit via un moteur de données qui transforme les données brutes de jeu en un corpus dense et cross-référencé. Nous organisons l'évaluation en 9 tâches réparties selon une hiérarchie progressive à quatre piliers : Compréhension Dynamique de la Scène, Raisonnement Causal, Simulation Stratégique et Synthèse Agentique. En évaluant des modèles de référence multimodaux et agentiques forts, nous observons une falaise de capacité : les modèles obtiennent des performances compétentes pour les tâches perceptives, atteignant environ 73 % sur des questions-réponses d'actions fines, mais leur performance se dégrade fortement à chaque niveau cognitif successif. Les tâches agentiques s'avèrent les plus difficiles : le modèle le plus performant n'atteint que 5 % de précision lorsqu'il doit rassembler et intégrer de manière autonome des preuves à travers un corpus de 1,8 million d'extraits.

English

True video intelligence demands more than recognizing what is visible: it requires reasoning about why events unfold, predicting what would change under different conditions, and deciding what to do next. We refer to this progression, from perception through causal reasoning and simulation to strategic planning, as Strategic Video Intelligence (SVI). No existing benchmark evaluates this capability stack: in-the-wild videos lack verifiable ground truth for causal and strategic questions, while synthetic environments sacrifice the complexity of real multi-agent systems. To bridge this gap, we introduce SVI-Bench, a large-scale benchmark that leverages team sports as a dynamic microworld, combining the complexity of real-world multi-agent interaction (10-22 agents making coordinated decisions under adversarial pressure) with the verifiability of explicit rules and definitive outcomes. SVI-Bench comprises approximately 35K hours of broadcast video, 15M annotated actions, 15K hours of expert commentary, 23K game reports, and 103K structured statistical records across basketball, soccer, and hockey, all constructed via a data engine that transforms raw game data into a dense, cross-referenced corpus. We organize evaluation into 9 tasks spanning a progressive four-pillar hierarchy: Dynamic Scene Understanding, Causal Reasoning, Strategic Simulation, and Agentic Synthesis. Evaluating strong multimodal and agentic baselines, we find a capability cliff: models perform competently on perceptual tasks, achieving approximately 73% on fine-grained action QA, but degrade sharply at each successive cognitive level. Agentic tasks prove hardest: the strongest model achieves only 5% accuracy when required to autonomously gather and integrate evidence across a corpus of 1.8M clips.