Aprendizagem da Consciência Situada no Mundo Real

Resumo

Um aspecto fundamental da percepção humana é a consciência situada, a capacidade de nos relacionarmos com o ambiente físico circundante e raciocinarmos sobre possíveis ações em contexto. No entanto, a maioria dos benchmarks existentes para modelos de fundação multimodais (MFMs) enfatiza relações espaciais centradas no ambiente (relações entre objetos em uma cena), enquanto ignora amplamente as relações centradas no observador, que exigem raciocínio relativo ao ponto de vista, à postura e ao movimento do agente. Para preencher essa lacuna, apresentamos o SAW-Bench (Situated Awareness in the Real World), um novo benchmark para avaliar a consciência situada egocêntrica usando vídeos do mundo real. O SAW-Bench é composto por 786 vídeos auto-gravados com os óculos inteligentes Ray-Ban Meta (Gen 2), abrangendo diversos ambientes internos e externos, e mais de 2.071 pares de pergunta-resposta anotados manualmente. Ele investiga a compreensão centrada no observador de um modelo por meio de seis tarefas de consciência diferentes. Nossa avaliação abrangente revela uma lacuna de desempenho homem-modelo de 37,66%, mesmo com o MFM de melhor desempenho, o Gemini 3 Flash. Além dessa lacuna, nossa análise aprofundada revela várias descobertas notáveis; por exemplo, embora os modelos possam explorar pistas geométricas parciais em vídeos egocêntricos, eles frequentemente falham em inferir uma geometria de câmera coerente, levando a erros sistemáticos de raciocínio espacial. Posicionamos o SAW-Bench como um benchmark para a inteligência espacial situada, indo além da observação passiva para a compreensão de dinâmicas fisicamente fundamentadas e centradas no observador.

English

A core aspect of human perception is situated awareness, the ability to relate ourselves to the surrounding physical environment and reason over possible actions in context. However, most existing benchmarks for multimodal foundation models (MFMs) emphasize environment-centric spatial relations (relations among objects in a scene), while largely overlooking observer-centric relationships that require reasoning relative to agent's viewpoint, pose, and motion. To bridge this gap, we introduce SAW-Bench (Situated Awareness in the Real World), a novel benchmark for evaluating egocentric situated awareness using real-world videos. SAW-Bench comprises 786 self-recorded videos captured with Ray-Ban Meta (Gen 2) smart glasses spanning diverse indoor and outdoor environments, and over 2,071 human-annotated question-answer pairs. It probes a model's observer-centric understanding with six different awareness tasks. Our comprehensive evaluation reveals a human-model performance gap of 37.66%, even with the best-performing MFM, Gemini 3 Flash. Beyond this gap, our in-depth analysis uncovers several notable findings; for example, while models can exploit partial geometric cues in egocentric videos, they often fail to infer a coherent camera geometry, leading to systematic spatial reasoning errors. We position SAW-Bench as a benchmark for situated spatial intelligence, moving beyond passive observation to understanding physically grounded, observer-centric dynamics.

Aprendizagem da Consciência Situada no Mundo Real

Learning Situated Awareness in the Real World

Resumo

Support