Apprentissage de la conscience située dans le monde réel

Résumé

Un aspect fondamental de la perception humaine est la conscience située, c'est-à-dire la capacité à nous situer par rapport à notre environnement physique et à raisonner sur les actions possibles dans un contexte donné. Cependant, la plupart des benchmarks existants pour les modèles fondationnels multimodaux (MFM) privilégient les relations spatiales centrées sur l'environnement (relations entre les objets d'une scène), tout en négligeant largement les relations centrées sur l'observateur, qui nécessitent un raisonnement relatif au point de vue, à la posture et au mouvement de l'agent. Pour combler cette lacune, nous présentons SAW-Bench (Situated Awareness in the Real World), un nouveau benchmark destiné à évaluer la conscience située égocentrique à l'aide de vidéos du monde réel. SAW-Bench comprend 786 vidéos auto-enregistrées, capturées avec des lunettes intelligentes Ray-Ban Meta (Gen 2) dans divers environnements intérieurs et extérieurs, et plus de 2 071 paires question-réponse annotées manuellement. Il sonde la compréhension centrée sur l'observateur d'un modèle à travers six tâches de conscience distinctes. Notre évaluation exhaustive révèle un écart de performance homme-modèle de 37,66 %, même avec le MFM le plus performant, Gemini 3 Flash. Au-delà de cet écart, notre analyse approfondie met en lumière plusieurs résultats notables ; par exemple, si les modèles peuvent exploiter des indices géométriques partiels dans les vidéos égocentriques, ils échouent souvent à inférer une géométrie cohérente de la caméra, ce qui conduit à des erreurs systématiques de raisonnement spatial. Nous positionnons SAW-Bench comme un benchmark pour l'intelligence spatiale située, dépassant l'observation passive pour comprendre la dynamique physiquement ancrée et centrée sur l'observateur.

English

A core aspect of human perception is situated awareness, the ability to relate ourselves to the surrounding physical environment and reason over possible actions in context. However, most existing benchmarks for multimodal foundation models (MFMs) emphasize environment-centric spatial relations (relations among objects in a scene), while largely overlooking observer-centric relationships that require reasoning relative to agent's viewpoint, pose, and motion. To bridge this gap, we introduce SAW-Bench (Situated Awareness in the Real World), a novel benchmark for evaluating egocentric situated awareness using real-world videos. SAW-Bench comprises 786 self-recorded videos captured with Ray-Ban Meta (Gen 2) smart glasses spanning diverse indoor and outdoor environments, and over 2,071 human-annotated question-answer pairs. It probes a model's observer-centric understanding with six different awareness tasks. Our comprehensive evaluation reveals a human-model performance gap of 37.66%, even with the best-performing MFM, Gemini 3 Flash. Beyond this gap, our in-depth analysis uncovers several notable findings; for example, while models can exploit partial geometric cues in egocentric videos, they often fail to infer a coherent camera geometry, leading to systematic spatial reasoning errors. We position SAW-Bench as a benchmark for situated spatial intelligence, moving beyond passive observation to understanding physically grounded, observer-centric dynamics.

Apprentissage de la conscience située dans le monde réel

Learning Situated Awareness in the Real World

Résumé

Support