실제 세계에서의 상황 인식 학습
Learning Situated Awareness in the Real World
February 18, 2026
저자: Chuhan Li, Ruilin Han, Joy Hsu, Yongyuan Liang, Rajiv Dhawan, Jiajun Wu, Ming-Hsuan Yang, Xin Eric Wang
cs.AI
초록
인간 인지의 핵심 측면은 상황 인식으로, 우리 자신을 주변 물리적 환경과 연관 짓고 맥락 내에서 가능한 행동을 추론하는 능력입니다. 그러나 기존의 다중 모달 기반 모델(MFM) 벤치마크 대부분은 환경 중심의 공간 관계(장면 내 객체 간 관계)에 중점을 두는 반면, 에이전트의 시점, 자세, 움직임에 상대적인 추론이 필요한 관찰자 중심 관계는 크게 간과하고 있습니다. 이러한 격차를 해소하기 위해 우리는 실제 영상을 활용한 자기 중심적 상황 인식을 평가하기 위한 새로운 벤치마크인 SAW-Bench(실세계 상황 인식)를 소개합니다. SAW-Bench는 Ray-Ban Meta(Gen 2) 스마트 글래스로 촬영한 다양한 실내외 환경의 자체 녹화 영상 786개와 인간이 주석을 단 2,071개 이상의 질문-답변 쌍으로 구성됩니다. 이 벤치마크는 6가지 다른 인식 과제를 통해 모델의 관찰자 중심 이해력을 탐구합니다. 우리의 포괄적 평가 결과, 최고 성능의 MFM인 Gemini 3 Flash를 사용하더라도 인간과 모델 간 성능 차이가 37.66%에 달하는 것으로 나타났습니다. 이러한 차이를 넘어, 심층 분석을 통해 몇 가지 주목할 만한 발견을 했습니다. 예를 들어, 모델은 자기 중심적 영상에서 부분적인 기하학적 단서를 활용할 수 있지만, 종종 일관된 카메라 기하학을 추론하지 못하여 체계적인 공간 추론 오류로 이어집니다. 우리는 SAW-Bench를 수동적 관찰을 넘어 물리적으로 근거 있는 관찰자 중심 역동성을 이해하는, 상황적 공간 지능을 위한 벤치마크로 자리매김합니다.
English
A core aspect of human perception is situated awareness, the ability to relate ourselves to the surrounding physical environment and reason over possible actions in context. However, most existing benchmarks for multimodal foundation models (MFMs) emphasize environment-centric spatial relations (relations among objects in a scene), while largely overlooking observer-centric relationships that require reasoning relative to agent's viewpoint, pose, and motion. To bridge this gap, we introduce SAW-Bench (Situated Awareness in the Real World), a novel benchmark for evaluating egocentric situated awareness using real-world videos. SAW-Bench comprises 786 self-recorded videos captured with Ray-Ban Meta (Gen 2) smart glasses spanning diverse indoor and outdoor environments, and over 2,071 human-annotated question-answer pairs. It probes a model's observer-centric understanding with six different awareness tasks. Our comprehensive evaluation reveals a human-model performance gap of 37.66%, even with the best-performing MFM, Gemini 3 Flash. Beyond this gap, our in-depth analysis uncovers several notable findings; for example, while models can exploit partial geometric cues in egocentric videos, they often fail to infer a coherent camera geometry, leading to systematic spatial reasoning errors. We position SAW-Bench as a benchmark for situated spatial intelligence, moving beyond passive observation to understanding physically grounded, observer-centric dynamics.