ENACT : Évaluation de la Cognition Incarnée par la Modélisation du Monde des Interactions Égocentriques
ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
November 26, 2025
papers.authors: Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI
papers.abstract
La cognition incarnée postule que l'intelligence émerge de l'interaction sensori-motrice plutôt que de l'observation passive. Cela soulève une question intrigante : les modèles vision-langage (VLM) modernes, entraînés de manière largement désincarnée, présentent-ils des signes de cognition incarnée ? Nous présentons ENACT, un benchmark qui transforme l'évaluation de la cognition incarnée en une modélisation du monde à partir d'interactions égocentriques sous forme de questions-réponses visuelles (VQA). Cadré comme un processus de décision markovien partiellement observable (POMDP) dont les actions sont des changements de graphes de scène, ENACT comprend deux tâches complémentaires de réordonnancement de séquences : la modélisation directe du monde (réordonner des observations mélangées étant donné des actions) et la modélisation inverse du monde (réordonner des actions mélangées étant donné des observations). Bien que conceptuellement simples, la résolution de ces tâches exige implicitement des capacités centrales à la cognition incarnée : la reconnaissance d'affordances, le raisonnement action-effet, la conscience incarnée et la mémoire interactive à long terme à partir d'entrées égocentriques partiellement observables, tout en évitant la synthèse d'images de bas niveau qui pourrait brouiller l'évaluation. Nous proposons une pipeline évolutive qui synthétise des paires question-réponse à partir de simulation robotique (BEHAVIOR) et évalue les modèles sur 8 972 paires QA couvrant des activités domestiques de long horizon. Les expériences révèlent un écart de performance entre les VLM de pointe et les humains qui s'accroît avec l'horizon d'interaction. Les modèles performent systématiquement mieux sur la tâche inverse que sur la tâche directe et présentent des biais anthropocentriques, incluant une préférence pour les actions de la main droite et une dégradation lorsque les paramètres intrinsèques de la caméra ou les points de vue s'écartent de la vision humaine. Site web : https://enact-embodied-cognition.github.io/.
English
Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.