OVO-S-Bench: マルチモーダルLLMにおけるストリーミング空間知能のための階層的ベンチマーク
OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs
June 2, 2026
著者: Yifei Li, Pengyiang Liu, Yuhang Zang, Zhongyue Shi, Qi Fu, Hongye Hao, Jiwen Lu
cs.AI
要旨
ロボティクス、AR、自動運転におけるマルチモーダルエージェントは、連続的な自己中心的なストリームから場所やレイアウトを推論する必要があり、多くの場合、現在の視野外の証拠を利用する。既存のベンチマークは、全動画をオフラインで評価するか、空間構造ではなくイベントを対象としている。我々は、ストリーミング空間知能のための完全に人手でアノテーションされたベンチマークであるOVO-S-Benchを紹介する。これは348本のソース動画にわたる1,680の質問から構成される。アノテーションには12名の訓練されたアノテーターが参加し、各アノテーターはブラインドの相互レビュアーも兼任し、約804人時の複数ラウンドの品質保証を行った。各質問にはクエリタイムスタンプとエビデンス区間が付与されており、評価時にはモデルはクエリより前のプレフィックスのみを参照する。質問は抽象化の度合いが高まる4つのレベルにわたる:即時的自己中心知覚、時空間コンテキスト追跡、空間シミュレーションと推論、そして全地球的マッピングである。38のプロプライエタリおよびオープンソースのMLLMの中で、Gemini-3.1-Proは人間の専門家に27ポイント劣り、59.2対86.6であり、全地球的マッピングが主要なボトルネックとなっている。特筆すべきは、ストリーミングおよび空間ファインチューニングされたMLLMが、そのバックボーン自体よりも性能が低いことである。さらに、チェーン・オブ・ソート推論は、ストリームに基づかない場合に空間エラーを増幅することがわかった。これらの限界を明らかにすることで、OVO-S-Benchは次世代のストリーミング空間MLLMのための要求の厳しいテストベッドを確立する。
English
Multimodal agents in robotics, AR, and autonomous driving must reason about places and layouts from continuous egocentric streams, often using evidence outside the current view. Existing benchmarks either evaluate offline over full videos or target events rather than spatial structure. We introduce OVO-S-Bench, a fully human-annotated benchmark for streaming spatial intelligence, comprising 1,680 questions over 348 source videos. Annotation involves 12 trained annotators, each also serving as a blind cross-reviewer, across roughly 804 person-hours of multi-round quality assurance. Each question carries a query timestamp and an evidence interval, and at evaluation, the model sees only the prefix preceding the query. Questions span four levels of increasing abstraction: instantaneous egocentric perception, spatiotemporal context tracking, spatial simulation and reasoning, and allocentric mapping. Across 38 proprietary and open-source MLLMs, Gemini-3.1-Pro trails human experts by 27 points, 59.2 vs. 86.6, with allocentric mapping as the dominant bottleneck. Notably, streaming and spatially fine-tuned MLLMs underperform their own backbones. We further find that chain-of-thought reasoning amplifies spatial errors when ungrounded in the stream. By exposing these limitations, OVO-S-Bench establishes a demanding testbed for next-generation streaming spatial MLLMs.