SVI-Bench: Um Micromundo Dinâmico para Inteligência Estratégica de Vídeo
SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence
May 29, 2026
Autores: Yulu Pan, Han Yi, Seongsu Ha, Md Mohaiminul Islam, Benjamin Zhang, Lorenzo Torresani, Gedas Bertasius
cs.AI
Resumo
A verdadeira inteligência de vídeo exige mais do que reconhecer o que é visível: requer raciocinar sobre por que os eventos se desenrolam, prever o que mudaria sob diferentes condições e decidir o que fazer a seguir. Referimo-nos a essa progressão, da percepção através do raciocínio causal e simulação até o planejamento estratégico, como Inteligência de Vídeo Estratégica (SVI, na sigla em inglês). Nenhum padrão de referência existente avalia essa pilha de capacidades: vídeos do mundo real carecem de ground truth verificável para perguntas causais e estratégicas, enquanto ambientes sintéticos sacrificam a complexidade dos sistemas multiagentes reais. Para preencher essa lacuna, apresentamos o SVI-Bench, um benchmark de grande escala que utiliza esportes coletivos como um micromundo dinâmico, combinando a complexidade da interação multiagente do mundo real (10 a 22 agentes tomando decisões coordenadas sob pressão adversária) com a verificabilidade de regras explícitas e resultados definitivos. O SVI-Bench compreende aproximadamente 35 mil horas de vídeo transmitido, 15 milhões de ações anotadas, 15 mil horas de comentários de especialistas, 23 mil relatórios de jogos e 103 mil registros estatísticos estruturados em basquete, futebol e hóquei, todos construídos por meio de um mecanismo de dados que transforma dados brutos de jogos em um corpus denso e com referências cruzadas. Organizamos a avaliação em 9 tarefas distribuídas em uma hierarquia progressiva de quatro pilares: Compreensão Dinâmica de Cena, Raciocínio Causal, Simulação Estratégica e Síntese Agencial. Ao avaliar bases de referência multimodais e agenciais robustas, encontramos um precipício de capacidade: os modelos têm desempenho competente em tarefas perceptivas, alcançando aproximadamente 73% em perguntas e respostas de ações refinadas, mas degradam-se acentuadamente em cada nível cognitivo sucessivo. As tarefas agenciais mostraram-se as mais difíceis: o modelo mais forte atinge apenas 5% de precisão quando precisa reunir e integrar evidências de forma autônoma em um corpus de 1,8 milhão de clipes.
English
True video intelligence demands more than recognizing what is visible: it requires reasoning about why events unfold, predicting what would change under different conditions, and deciding what to do next. We refer to this progression, from perception through causal reasoning and simulation to strategic planning, as Strategic Video Intelligence (SVI). No existing benchmark evaluates this capability stack: in-the-wild videos lack verifiable ground truth for causal and strategic questions, while synthetic environments sacrifice the complexity of real multi-agent systems. To bridge this gap, we introduce SVI-Bench, a large-scale benchmark that leverages team sports as a dynamic microworld, combining the complexity of real-world multi-agent interaction (10-22 agents making coordinated decisions under adversarial pressure) with the verifiability of explicit rules and definitive outcomes. SVI-Bench comprises approximately 35K hours of broadcast video, 15M annotated actions, 15K hours of expert commentary, 23K game reports, and 103K structured statistical records across basketball, soccer, and hockey, all constructed via a data engine that transforms raw game data into a dense, cross-referenced corpus. We organize evaluation into 9 tasks spanning a progressive four-pillar hierarchy: Dynamic Scene Understanding, Causal Reasoning, Strategic Simulation, and Agentic Synthesis. Evaluating strong multimodal and agentic baselines, we find a capability cliff: models perform competently on perceptual tasks, achieving approximately 73% on fine-grained action QA, but degrade sharply at each successive cognitive level. Agentic tasks prove hardest: the strongest model achieves only 5% accuracy when required to autonomously gather and integrate evidence across a corpus of 1.8M clips.