ChatPaper.aiChatPaper

SVI-Bench: Un micromundo dinámico para la inteligencia estratégica de video

SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence

May 29, 2026
Autores: Yulu Pan, Han Yi, Seongsu Ha, Md Mohaiminul Islam, Benjamin Zhang, Lorenzo Torresani, Gedas Bertasius
cs.AI

Resumen

La verdadera inteligencia en video exige más que reconocer lo visible: requiere razonar sobre por qué ocurren los eventos, predecir qué cambiaría bajo condiciones distintas y decidir qué acción tomar a continuación. Denominamos a esta progresión —desde la percepción, pasando por el razonamiento causal y la simulación, hasta la planificación estratégica— como Inteligencia de Video Estratégica (SVI, por sus siglas en inglés). Ningún punto de referencia existente evalúa esta pila de capacidades: los videos del mundo real carecen de verdad fundamental verificable para preguntas causales y estratégicas, mientras que los entornos sintéticos sacrifican la complejidad de los sistemas multiagente reales. Para cerrar esta brecha, presentamos SVI-Bench, un punto de referencia a gran escala que aprovecha los deportes de equipo como micromundo dinámico, combinando la complejidad de la interacción multiagente del mundo real (de 10 a 22 agentes tomando decisiones coordinadas bajo presión adversarial) con la verificabilidad de reglas explícitas y resultados definitivos. SVI-Bench comprende aproximadamente 35.000 horas de video transmitido, 15 millones de acciones anotadas, 15.000 horas de comentarios de expertos, 23.000 informes de partidos y 103.000 registros estadísticos estructurados en baloncesto, fútbol y hockey, todo construido mediante un motor de datos que transforma datos de juego en bruto en un corpus denso y con referencias cruzadas. Organizamos la evaluación en 9 tareas distribuidas en una jerarquía progresiva de cuatro pilares: Comprensión de Escenas Dinámicas, Razonamiento Causal, Simulación Estratégica y Síntesis Agentiva. Al evaluar líneas base multimodales y agentivas sólidas, encontramos un acantilado de capacidad: los modelos se desempeñan competentemente en tareas perceptivas, logrando aproximadamente un 73% en preguntas y respuestas detalladas sobre acciones, pero se degradan abruptamente en cada nivel cognitivo sucesivo. Las tareas agentivas resultan ser las más difíciles: el modelo más fuerte alcanza solo un 5% de precisión cuando debe recopilar e integrar evidencia de manera autónoma a través de un corpus de 1.8 millones de clips.
English
True video intelligence demands more than recognizing what is visible: it requires reasoning about why events unfold, predicting what would change under different conditions, and deciding what to do next. We refer to this progression, from perception through causal reasoning and simulation to strategic planning, as Strategic Video Intelligence (SVI). No existing benchmark evaluates this capability stack: in-the-wild videos lack verifiable ground truth for causal and strategic questions, while synthetic environments sacrifice the complexity of real multi-agent systems. To bridge this gap, we introduce SVI-Bench, a large-scale benchmark that leverages team sports as a dynamic microworld, combining the complexity of real-world multi-agent interaction (10-22 agents making coordinated decisions under adversarial pressure) with the verifiability of explicit rules and definitive outcomes. SVI-Bench comprises approximately 35K hours of broadcast video, 15M annotated actions, 15K hours of expert commentary, 23K game reports, and 103K structured statistical records across basketball, soccer, and hockey, all constructed via a data engine that transforms raw game data into a dense, cross-referenced corpus. We organize evaluation into 9 tasks spanning a progressive four-pillar hierarchy: Dynamic Scene Understanding, Causal Reasoning, Strategic Simulation, and Agentic Synthesis. Evaluating strong multimodal and agentic baselines, we find a capability cliff: models perform competently on perceptual tasks, achieving approximately 73% on fine-grained action QA, but degrade sharply at each successive cognitive level. Agentic tasks prove hardest: the strongest model achieves only 5% accuracy when required to autonomously gather and integrate evidence across a corpus of 1.8M clips.