Leren van situationeel bewustzijn in de echte wereld

Samenvatting

Een kernaspect van de menselijke waarneming is gesitueerd bewustzijn: het vermogen om onszelf te verhouden tot de fysieke omgeving en te redeneren over mogelijke acties in een context. De meeste bestaande benchmarks voor multimodale foundationmodellen (MFM's) leggen echter de nadruk op omgevingsgerichte ruimtelijke relaties (relaties tussen objecten in een scène), terwijl ze waarnemer-gerichte relaties die redeneren vereisen ten opzichte van het gezichtspunt, de houding en de beweging van de agent grotendeels over het hoofd zien. Om deze kloof te overbruggen, introduceren we SAW-Bench (Situated Awareness in the Real World), een nieuwe benchmark voor het evalueren van egocentrisch gesitueerd bewustzijn met behulp van real-world video's. SAW-Bench omvat 786 zelf opgenomen video's, vastgelegd met Ray-Ban Meta (Gen 2) slimme brillen in diverse binnen- en buitenomgevingen, en meer dan 2.071 door mensen geannoteerde vraag-antwoordparen. Het onderzoekt het waarnemer-gerichte begrip van een model met zes verschillende bewustzijnstaken. Onze uitgebreide evaluatie toont een prestatiekloof tussen mens en model van 37,66%, zelfs met het best presterende MFM, Gemini 3 Flash. Naast deze kloof onthult onze diepgaande analyse verschillende opmerkelijke bevindingen; zo kunnen modellen bijvoorbeeld wel partiële geometrische aanwijzingen in egocentrische video's benutten, maar slagen ze er vaak niet in om een coherente camerageometrie af te leiden, wat leidt tot systematische ruimtelijke redeneerfouten. Wij positioneren SAW-Bench als een benchmark voor gesitueerde ruimtelijke intelligentie, die verder gaat dan passieve observatie naar het begrijpen van fysiek verankerde, waarnemer-gerichte dynamiek.

English

A core aspect of human perception is situated awareness, the ability to relate ourselves to the surrounding physical environment and reason over possible actions in context. However, most existing benchmarks for multimodal foundation models (MFMs) emphasize environment-centric spatial relations (relations among objects in a scene), while largely overlooking observer-centric relationships that require reasoning relative to agent's viewpoint, pose, and motion. To bridge this gap, we introduce SAW-Bench (Situated Awareness in the Real World), a novel benchmark for evaluating egocentric situated awareness using real-world videos. SAW-Bench comprises 786 self-recorded videos captured with Ray-Ban Meta (Gen 2) smart glasses spanning diverse indoor and outdoor environments, and over 2,071 human-annotated question-answer pairs. It probes a model's observer-centric understanding with six different awareness tasks. Our comprehensive evaluation reveals a human-model performance gap of 37.66%, even with the best-performing MFM, Gemini 3 Flash. Beyond this gap, our in-depth analysis uncovers several notable findings; for example, while models can exploit partial geometric cues in egocentric videos, they often fail to infer a coherent camera geometry, leading to systematic spatial reasoning errors. We position SAW-Bench as a benchmark for situated spatial intelligence, moving beyond passive observation to understanding physically grounded, observer-centric dynamics.

Leren van situationeel bewustzijn in de echte wereld

Learning Situated Awareness in the Real World

Samenvatting

Support