Формирование ситуационной осведомленности в реальном мире

Аннотация

Ключевым аспектом человеческого восприятия является ситуационная осведомленность — способность соотносить себя с окружающей физической средой и анализировать возможные действия в контексте. Однако большинство существующих бенчмарков для мультимодальных фундаментальных моделей (МФМ) делают акцент на средо-ориентированных пространственных отношениях (связях между объектами в сцене), в значительной степени упуская из виду наблюдатель-центричные отношения, требующие рассуждений относительно позиции, позы и движения агента. Чтобы заполнить этот пробел, мы представляем SAW-Bench (Situated Awareness in the Real World) — новый бенчмарк для оценки эгоцентричной ситуационной осведомленности с использованием видеозаписей реального мира. SAW-Bench включает 786 самостоятельно записанных видео, снятых умными очками Ray-Ban Meta (Gen 2) в различных внутренних и внешних средах, и более 2071 аннотированных человеком пар «вопрос-ответ». Он исследует наблюдатель-центричное понимание модели с помощью шести различных задач на осведомленность. Наше комплексное оценивание выявляет разрыв в производительности между человеком и моделью в 37,66%, даже с лучшей МФМ Gemini 3 Flash. Помимо этого разрыва, наш углубленный анализ обнаружил несколько примечательных выводов; например, хотя модели могут использовать частичные геометрические подсказки в эгоцентричных видео, они часто не способны вывести непротиворечивую геометрию камеры, что приводит к систематическим ошибкам пространственного reasoning. Мы позиционируем SAW-Bench как бенчмарк для ситуационного пространственного интеллекта, выходящий за рамки пассивного наблюдения к пониманию физически обоснованной, наблюдатель-центричной динамики.

English

A core aspect of human perception is situated awareness, the ability to relate ourselves to the surrounding physical environment and reason over possible actions in context. However, most existing benchmarks for multimodal foundation models (MFMs) emphasize environment-centric spatial relations (relations among objects in a scene), while largely overlooking observer-centric relationships that require reasoning relative to agent's viewpoint, pose, and motion. To bridge this gap, we introduce SAW-Bench (Situated Awareness in the Real World), a novel benchmark for evaluating egocentric situated awareness using real-world videos. SAW-Bench comprises 786 self-recorded videos captured with Ray-Ban Meta (Gen 2) smart glasses spanning diverse indoor and outdoor environments, and over 2,071 human-annotated question-answer pairs. It probes a model's observer-centric understanding with six different awareness tasks. Our comprehensive evaluation reveals a human-model performance gap of 37.66%, even with the best-performing MFM, Gemini 3 Flash. Beyond this gap, our in-depth analysis uncovers several notable findings; for example, while models can exploit partial geometric cues in egocentric videos, they often fail to infer a coherent camera geometry, leading to systematic spatial reasoning errors. We position SAW-Bench as a benchmark for situated spatial intelligence, moving beyond passive observation to understanding physically grounded, observer-centric dynamics.

Формирование ситуационной осведомленности в реальном мире

Learning Situated Awareness in the Real World

Аннотация

Support