Apprendimento della Consapevolezza Situata nel Mondo Reale

Abstract

Un aspetto fondamentale della percezione umana è la consapevolezza situata, ovvero la capacità di relazionarci con l'ambiente fisico circostante e di ragionare sulle possibili azioni nel contesto. Tuttavia, la maggior parte dei benchmark esistenti per i modelli fondazionali multimodali (MFM) enfatizza le relazioni spaziali centrate sull'ambiente (relazioni tra oggetti in una scena), trascurando in gran parte le relazioni centrate sull'osservatore, che richiedono un ragionamento relativo al punto di vista, alla posa e al movimento dell'agente. Per colmare questa lacuna, introduciamo SAW-Bench (Situated Awareness in the Real World), un nuovo benchmark per valutare la consapevolezza situata egocentrica utilizzando video del mondo reale. SAW-Bench comprende 786 video auto-registrati catturati con gli occhiali intelligenti Ray-Ban Meta (Gen 2), che abbracciano ambienti indoor e outdoor diversificati, e oltre 2.071 coppie domanda-risposta annotate manualmente. Esso indaga la comprensione centrata sull'osservatore di un modello attraverso sei diverse attività di consapevolezza. La nostra valutazione completa rivale un divario di performance uomo-modello del 37,66%, anche con il miglior MFM, Gemini 3 Flash. Oltre a questo divario, la nostra analisi approfondita rivela diversi risultati notevoli; ad esempio, sebbene i modelli siano in grado di sfruttare parziali indizi geometrici nei video egocentrici, spesso non riescono a inferire una geometria della camera coerente, portando a errori sistematici di ragionamento spaziale. Posizioniamo SAW-Bench come un benchmark per l'intelligenza spaziale situata, spostandoci oltre l'osservazione passiva verso la comprensione di dinamiche fisicamente fondate e centrate sull'osservatore.

English

A core aspect of human perception is situated awareness, the ability to relate ourselves to the surrounding physical environment and reason over possible actions in context. However, most existing benchmarks for multimodal foundation models (MFMs) emphasize environment-centric spatial relations (relations among objects in a scene), while largely overlooking observer-centric relationships that require reasoning relative to agent's viewpoint, pose, and motion. To bridge this gap, we introduce SAW-Bench (Situated Awareness in the Real World), a novel benchmark for evaluating egocentric situated awareness using real-world videos. SAW-Bench comprises 786 self-recorded videos captured with Ray-Ban Meta (Gen 2) smart glasses spanning diverse indoor and outdoor environments, and over 2,071 human-annotated question-answer pairs. It probes a model's observer-centric understanding with six different awareness tasks. Our comprehensive evaluation reveals a human-model performance gap of 37.66%, even with the best-performing MFM, Gemini 3 Flash. Beyond this gap, our in-depth analysis uncovers several notable findings; for example, while models can exploit partial geometric cues in egocentric videos, they often fail to infer a coherent camera geometry, leading to systematic spatial reasoning errors. We position SAW-Bench as a benchmark for situated spatial intelligence, moving beyond passive observation to understanding physically grounded, observer-centric dynamics.

Apprendimento della Consapevolezza Situata nel Mondo Reale

Learning Situated Awareness in the Real World

Abstract

Support