ChatPaper.aiChatPaper

SVI-Bench:戦略的ビデオインテリジェンスのための動的マイクロワールド

SVI-Bench: A Dynamic Microworld for Strategic Video Intelligence

May 29, 2026
著者: Yulu Pan, Han Yi, Seongsu Ha, Md Mohaiminul Islam, Benjamin Zhang, Lorenzo Torresani, Gedas Bertasius
cs.AI

要旨

真のビデオインテリジェンスには、可視的なものを認識するだけでは不十分である。なぜ事象が展開するのかを推論し、異なる条件下で何が変化するかを予測し、次に何をすべきかを判断することが求められる。この、知覚から因果推論とシミュレーションを経て戦略的計画に至るプロセスを、我々は戦略的ビデオインテリジェンス(SVI)と呼ぶ。既存のベンチマークではこの能力スタックを評価できない。実世界の動画では因果的・戦略的質問に対する検証可能な正解が欠けており、一方で合成環境は実際のマルチエージェントシステムの複雑さを犠牲にしている。このギャップを埋めるために、我々はSVI-Benchを導入する。これは大規模ベンチマークであり、チームスポーツを動的なミクロ世界として活用し、実世界のマルチエージェント相互作用(敵対的プレッシャー下で調整された意思決定を行う10~22エージェント)の複雑さと、明示的なルールと決定的な結果による検証可能性を組み合わせたものである。SVI-Benchは、約35,000時間の放送ビデオ、1,500万件の注釈付きアクション、15,000時間の専門家解説、23,000件の試合レポート、およびバスケットボール、サッカー、ホッケーにわたる103,000件の構造化統計記録で構成され、これら全ては生の試合データを高密度で相互参照されたコーパスに変換するデータエンジンを介して構築されている。我々は評価を9つのタスクに整理し、それらは4つの柱からなる段階的階層にまたがる。すなわち、動的シーン理解、因果推論、戦略的シミュレーション、そしてエージェント的合成である。強力なマルチモーダルおよびエージェント的ベースラインを評価した結果、能力の崖が明らかになった。モデルは知覚タスクでは十分に機能し、詳細なアクションQAで約73%の精度を達成するが、認知レベルが上がるごとに急激に性能が低下する。エージェント的タスクは最も困難であり、最強のモデルでも180万クリップのコーパスから自律的に証拠を収集・統合する必要がある場合、精度はわずか5%にとどまる。
English
True video intelligence demands more than recognizing what is visible: it requires reasoning about why events unfold, predicting what would change under different conditions, and deciding what to do next. We refer to this progression, from perception through causal reasoning and simulation to strategic planning, as Strategic Video Intelligence (SVI). No existing benchmark evaluates this capability stack: in-the-wild videos lack verifiable ground truth for causal and strategic questions, while synthetic environments sacrifice the complexity of real multi-agent systems. To bridge this gap, we introduce SVI-Bench, a large-scale benchmark that leverages team sports as a dynamic microworld, combining the complexity of real-world multi-agent interaction (10-22 agents making coordinated decisions under adversarial pressure) with the verifiability of explicit rules and definitive outcomes. SVI-Bench comprises approximately 35K hours of broadcast video, 15M annotated actions, 15K hours of expert commentary, 23K game reports, and 103K structured statistical records across basketball, soccer, and hockey, all constructed via a data engine that transforms raw game data into a dense, cross-referenced corpus. We organize evaluation into 9 tasks spanning a progressive four-pillar hierarchy: Dynamic Scene Understanding, Causal Reasoning, Strategic Simulation, and Agentic Synthesis. Evaluating strong multimodal and agentic baselines, we find a capability cliff: models perform competently on perceptual tasks, achieving approximately 73% on fine-grained action QA, but degrade sharply at each successive cognitive level. Agentic tasks prove hardest: the strongest model achieves only 5% accuracy when required to autonomously gather and integrate evidence across a corpus of 1.8M clips.