Aprendizaje de la Conciencia Situada en el Mundo Real

Resumen

Un aspecto fundamental de la percepción humana es la conciencia situada, la capacidad de relacionarnos con el entorno físico circundante y razonar sobre posibles acciones en contexto. Sin embargo, la mayoría de los puntos de referencia existentes para los modelos fundacionales multimodales (MFM) enfatizan las relaciones espaciales centradas en el entorno (relaciones entre objetos en una escena), mientras que en gran medida pasan por alto las relaciones centradas en el observador que requieren razonar en relación con el punto de vista, la postura y el movimiento del agente. Para cerrar esta brecha, presentamos SAW-Bench (Conciencia Situada en el Mundo Real), un nuevo punto de referencia para evaluar la conciencia situada en egocéntrica utilizando videos del mundo real. SAW-Bench comprende 786 videos auto-grabados capturados con las gafas inteligentes Ray-Ban Meta (Gen 2) que abarcan diversos entornos interiores y exteriores, y más de 2,071 pares de preguntas y respuestas anotadas manualmente. Evalúa la comprensión centrada en el observador de un modelo con seis tareas de conciencia diferentes. Nuestra evaluación integral revela una brecha de rendimiento entre humanos y modelos del 37.66%, incluso con el MFM de mejor rendimiento, Gemini 3 Flash. Más allá de esta brecha, nuestro análisis en profundidad descubre varios hallazgos notables; por ejemplo, si bien los modelos pueden explotar pistas geométricas parciales en videos egocéntricos, a menudo no logran inferir una geometría de cámara coherente, lo que lleva a errores sistemáticos de razonamiento espacial. Posicionamos a SAW-Bench como un punto de referencia para la inteligencia espacial situada, yendo más allá de la observación pasiva hacia la comprensión de dinámicas físicamente fundamentadas y centradas en el observador.

English

A core aspect of human perception is situated awareness, the ability to relate ourselves to the surrounding physical environment and reason over possible actions in context. However, most existing benchmarks for multimodal foundation models (MFMs) emphasize environment-centric spatial relations (relations among objects in a scene), while largely overlooking observer-centric relationships that require reasoning relative to agent's viewpoint, pose, and motion. To bridge this gap, we introduce SAW-Bench (Situated Awareness in the Real World), a novel benchmark for evaluating egocentric situated awareness using real-world videos. SAW-Bench comprises 786 self-recorded videos captured with Ray-Ban Meta (Gen 2) smart glasses spanning diverse indoor and outdoor environments, and over 2,071 human-annotated question-answer pairs. It probes a model's observer-centric understanding with six different awareness tasks. Our comprehensive evaluation reveals a human-model performance gap of 37.66%, even with the best-performing MFM, Gemini 3 Flash. Beyond this gap, our in-depth analysis uncovers several notable findings; for example, while models can exploit partial geometric cues in egocentric videos, they often fail to infer a coherent camera geometry, leading to systematic spatial reasoning errors. We position SAW-Bench as a benchmark for situated spatial intelligence, moving beyond passive observation to understanding physically grounded, observer-centric dynamics.

Aprendizaje de la Conciencia Situada en el Mundo Real

Learning Situated Awareness in the Real World

Resumen

Support