ENACT: 자기 중심적 상호작용의 세계 모델링을 통한 체화된 인지 평가
ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
November 26, 2025
저자: Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI
초록
구체화된 인지 이론은 지능이 수동적 관찰이 아닌 감각-운동 상호작용에서 비롯된다고 주장합니다. 이는 주로 비구체화된 방식으로 훈련된 현대의 시각-언어 모델(VLM)이 구체화된 인지의 징후를 보이는지라는 흥미로운 질문을 제기합니다. 우리는 구체화된 인지 평가를 자기 중심적 상호작용에서의 세계 모델링으로 설정한 벤치마크인 ENACT를 소개합니다. 이는 시각 질의응답(VQA) 형식으로 구성됩니다. 행동이 장면 그래프 변화인 부분 관측 가능 마르코프 결정 과정(POMDP)으로 구성된 ENACT는 두 가지 상호 보완적인 순서 재배열 과제를 포함합니다: 순방향 세계 모델링(행동이 주어졌을 때 뒤섞인 관찰 순서 재배열)과 역방향 세계 모델링(관찰이 주어졌을 때 뒤섞인 행동 순서 재배열). 개념적으로 간단하지만, 이러한 과제를 해결하려면 구체화된 인지의 핵심 능력인 어포던스 인식, 행동-결과 추론, 구체화된 인식, 부분적으로 관측 가능한 자기 중심적 입력으로부터의 상호작용적 장기 기억이 암묵적으로 요구되며, 평가를 혼란시킬 수 있는 저수준 이미지 합성을 회피합니다. 우리는 로봇공학 시뮬레이션(BEHAVIOR)에서 QA 쌍을 합성하고 장기간에 걸친 가정 규모 활동을 아우르는 8,972개의 QA 쌍에 대해 모델을 평가하는 확장 가능한 파이프라인을 제공합니다. 실험 결과, 최첨단 VLM과 인간 간의 성능 차이가 상호작용 기간이 길어질수록 벌어지는 것으로 나타났습니다. 모델은 순방향 과제보다 역방향 과제에서 consistently 더 나은 성능을 보였으며, 오른손 선호 행동 및 카메라 내부 매개변수나 시점이 인간의 시각에서 벗어날 경우 성능 저하와 같은 인간 중심적 편향을 나타냈습니다. 웹사이트: https://enact-embodied-cognition.github.io/.
English
Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.