ChatPaper.aiChatPaper

SVI-Bench: Динамический микромир для стратегического видеоинтеллекта

SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence

May 29, 2026
Авторы: Yulu Pan, Han Yi, Seongsu Ha, Md Mohaiminul Islam, Benjamin Zhang, Lorenzo Torresani, Gedas Bertasius
cs.AI

Аннотация

Истинный видеоинтеллект требует не только распознавания видимого: он нуждается в рассуждении о причинах разворачивающихся событий, предсказании того, что изменилось бы при других условиях, и принятии решений о дальнейших действиях. Такую прогрессию — от восприятия через каузальное рассуждение и симуляцию к стратегическому планированию — мы называем стратегическим видеоинтеллектом (СВИ, от англ. Strategic Video Intelligence). Ни один существующий бенчмарк не оценивает этот стек способностей: видеозаписи из реального мира лишены проверяемой истинной разметки для каузальных и стратегических вопросов, а синтетические среды жертвуют сложностью реальных мультиагентных систем. Чтобы восполнить этот пробел, мы представляем SVI-Bench — крупномасштабный бенчмарк, который использует командные виды спорта в качестве динамического микромира, сочетая сложность реального многолетнего взаимодействия (10–22 агента, принимающих скоординированные решения в условиях противодействия) с верифицируемостью явных правил и однозначных результатов. SVI-Bench включает примерно 35 000 часов трансляций, 15 миллионов размеченных действий, 15 000 часов экспертных комментариев, 23 000 отчётов о матчах и 103 000 структурированных статистических записей по баскетболу, футболу и хоккею — всё это создано с помощью движка данных, который преобразует сырые игровые данные в плотно перекрёстно-связанный корпус. Мы организуем оценку по 9 задачам, охватывающим прогрессивную четырёхуровневую иерархию: понимание динамических сцен, каузальное рассуждение, стратегическая симуляция и агентный синтез. Оценивая сильные мультимодальные и агентные базовые модели, мы обнаруживаем пропасть в возможностях: модели компетентно справляются с перцептивными задачами, достигая примерно 73% точности на вопросах по мелкозернистым действиям, но резко ухудшают результаты на каждом последующем когнитивном уровне. Агентные задачи оказываются самыми сложными: даже сильнейшая модель достигает лишь 5% точности, когда требуется автономно собирать и интегрировать свидетельства из корпуса из 1,8 миллиона клипов.
English
True video intelligence demands more than recognizing what is visible: it requires reasoning about why events unfold, predicting what would change under different conditions, and deciding what to do next. We refer to this progression, from perception through causal reasoning and simulation to strategic planning, as Strategic Video Intelligence (SVI). No existing benchmark evaluates this capability stack: in-the-wild videos lack verifiable ground truth for causal and strategic questions, while synthetic environments sacrifice the complexity of real multi-agent systems. To bridge this gap, we introduce SVI-Bench, a large-scale benchmark that leverages team sports as a dynamic microworld, combining the complexity of real-world multi-agent interaction (10-22 agents making coordinated decisions under adversarial pressure) with the verifiability of explicit rules and definitive outcomes. SVI-Bench comprises approximately 35K hours of broadcast video, 15M annotated actions, 15K hours of expert commentary, 23K game reports, and 103K structured statistical records across basketball, soccer, and hockey, all constructed via a data engine that transforms raw game data into a dense, cross-referenced corpus. We organize evaluation into 9 tasks spanning a progressive four-pillar hierarchy: Dynamic Scene Understanding, Causal Reasoning, Strategic Simulation, and Agentic Synthesis. Evaluating strong multimodal and agentic baselines, we find a capability cliff: models perform competently on perceptual tasks, achieving approximately 73% on fine-grained action QA, but degrade sharply at each successive cognitive level. Agentic tasks prove hardest: the strongest model achieves only 5% accuracy when required to autonomously gather and integrate evidence across a corpus of 1.8M clips.