ChatPaper.aiChatPaper

実世界における状況認識の学習

Learning Situated Awareness in the Real World

February 18, 2026
著者: Chuhan Li, Ruilin Han, Joy Hsu, Yongyuan Liang, Rajiv Dhawan, Jiajun Wu, Ming-Hsuan Yang, Xin Eric Wang
cs.AI

要旨

人間の知覚の中核をなすのは、状況的認識(situated awareness)である。これは、自己を周囲の物理環境に関連付け、文脈内で可能な行動を推論する能力を指す。しかし、既存のマルチモーダル基盤モデル(MFM)の評価指標の多くは、環境中心の空間関係(シーン内のオブジェクト間の関係)を重視する一方で、エージェントの視点、姿勢、動きを基準とした推論を必要とする観察者中心の関係性はほとんど見過ごされている。この隔たりを埋めるため、我々は実世界映像を用いたエゴセントリックな状況的認識を評価する新しいベンチマーク、SAW-Bench(Situated Awareness in the Real World)を提案する。SAW-Benchは、Ray-Ban Meta(Gen 2)スマートグラスで撮影した、多様な屋内・屋外環境にわたる786本の自作ビデオと、2,071組以上の人による注釈付き質問応答ペアで構成される。本ベンチマークは、6種類の認識タスクを通じて、モデルの観察者中心の理解を探る。包括的評価の結果、最高性能のMFMであるGemini 3 Flashであっても、人間とモデルの性能差は37.66%に達した。この隔たりに加え、詳細な分析からいくつかの注目すべき知見が明らかになった。例えば、モデルはエゴセントリック映像中の部分的な幾何学的手がかりを利用できる一方で、一貫したカメラジオメトリを推論することにしばしば失敗し、体系的な空間推論エラーを引き起こす。我々はSAW-Benchを、受動的観察を超えて、物理的に接地された観察者中心のダイナミクスを理解するための、状況的空間知能のベンチマークとして位置付ける。
English
A core aspect of human perception is situated awareness, the ability to relate ourselves to the surrounding physical environment and reason over possible actions in context. However, most existing benchmarks for multimodal foundation models (MFMs) emphasize environment-centric spatial relations (relations among objects in a scene), while largely overlooking observer-centric relationships that require reasoning relative to agent's viewpoint, pose, and motion. To bridge this gap, we introduce SAW-Bench (Situated Awareness in the Real World), a novel benchmark for evaluating egocentric situated awareness using real-world videos. SAW-Bench comprises 786 self-recorded videos captured with Ray-Ban Meta (Gen 2) smart glasses spanning diverse indoor and outdoor environments, and over 2,071 human-annotated question-answer pairs. It probes a model's observer-centric understanding with six different awareness tasks. Our comprehensive evaluation reveals a human-model performance gap of 37.66%, even with the best-performing MFM, Gemini 3 Flash. Beyond this gap, our in-depth analysis uncovers several notable findings; for example, while models can exploit partial geometric cues in egocentric videos, they often fail to infer a coherent camera geometry, leading to systematic spatial reasoning errors. We position SAW-Bench as a benchmark for situated spatial intelligence, moving beyond passive observation to understanding physically grounded, observer-centric dynamics.
PDF73March 28, 2026