ENACT: Evaluatie van Belichaamde Cognitie met Wereldmodellering van Egocentrische Interactie
ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
November 26, 2025
Auteurs: Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI
Samenvatting
Belichaamde cognitie stelt dat intelligentie voortkomt uit sensomotorische interactie in plaats van passieve observatie. Dit roept een intrigerende vraag op: vertonen moderne vision-language modellen (VLM's), die grotendeels op een onbelichaamde manier zijn getraind, tekenen van belichaamde cognitie? Wij introduceren ENACT, een benchmark die de evaluatie van belichaamde cognitie vormgeeft als wereldmodellering vanuit een egocentrisch perspectief in een visual question answering (VQA)-formaat. Gekaderd als een partieel observeerbaar Markov-beslissingsproces (POMDP) waarvan de acties veranderingen in de scènegraph zijn, omvat ENACT twee complementaire sequentiële herordeningstaken: *forward world modeling* (herschik geschudde observaties gegeven acties) en *inverse world modeling* (herschik geschudde acties gegeven observaties). Hoewel conceptueel eenvoudig, vereist het oplossen van deze taken impliciet capaciteiten die centraal staan in belichaamde cognitie: affordantieherkenning, redeneren over actie-effecten, belichaamd bewustzijn en interactief, langetermijngeheugen vanuit partieel observeerbare egocentrische input, terwijl low-level beeld synthese wordt vermeden die de evaluatie zou kunnen verstoren. Wij bieden een schaalbare pijplijn die VQA-paren synthetiseert uit robotsimulatie (BEHAVIOR) en evalueert modellen op 8.972 VQA-paren die langetermijn activiteiten op huishoudelijke schaal beslaan. Experimenten tonen een prestatiekloof tussen frontier VLM's en mensen die groter wordt met de interactiehorizon. Modellen presteren consistent beter op de inverse taak dan op de forward taak en vertonen antropocentrische vooroordelen, waaronder een voorkeur voor rechtshandige acties en prestatievermindering wanneer cameraintrinsieken of gezichtspunten afwijken van het menselijk zicht. Website: https://enact-embodied-cognition.github.io/.
English
Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.