ENACT: Bewertung verkörperter Kognition durch Weltmodellierung egozentrischer Interaktion
ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
November 26, 2025
papers.authors: Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI
papers.abstract
Die verkörperte Kognition (Embodied Cognition) postuliert, dass Intelligenz aus sensomotorischer Interaktion entsteht und nicht aus passiver Beobachtung. Dies wirft eine faszinierende Frage auf: Zeigen moderne Vision-Language-Models (VLMs), die größtenteils auf eine nicht-verkörperte Weise trainiert wurden, dennoch Anzeichen verkörperter Kognition? Wir stellen ENACT vor, einen Benchmark, der die Evaluation verkörperter Kognition als Modellierung der Welt aus egozentrischer Interaktion in einem Visual Question Answering (VQA)-Format formuliert. Gerahmt als partiell beobachtbarer Markov-Entscheidungsprozess (POMDP), dessen Aktionen Szenengraph-Veränderungen sind, umfasst ENACT zwei komplementäre Sequenz-Neuanordnungsaufgaben: Vorwärts-Weltmodellierung (Neuanordnung gemischter Beobachtungen bei gegebenen Aktionen) und inverse Weltmodellierung (Neuanordnung gemischter Aktionen bei gegebenen Beobachtungen). Obwohl konzeptionell einfach, erfordert die Lösung dieser Aufgaben implizit Fähigkeiten, die zentral für verkörperte Kognition sind: Affordanz-Erkennung, Handlungs-Folgen-Abgleich, verkörpertes Situationsbewusstsein und interaktives, langfristiges Gedächtnis aus partiell beobachtbarer egozentrischer Eingabe, während zugleich eine Verfälschung der Evaluation durch Low-Level-Bildsynthese vermieden wird. Wir stellen eine skalierbare Pipeline bereit, die QA-Paare aus Robotersimulation (BEHAVIOR) synthetisiert und Modelle anhand von 8.972 QA-Paaren evaluiert, die langfristige Aktivitäten im häuslichen Maßstab abdecken. Experimente zeigen eine Leistungslücke zwischen modernsten VLMs und Menschen, die mit zunehmendem Interaktionshorizont größer wird. Modelle schneiden durchweg besser bei der inversen Aufgabe ab als bei der Vorwärtsaufgabe und zeigen anthropozentrische Verzerrungen, einschließlich einer Präferenz für rechtshändige Aktionen und Leistungseinbußen, wenn Kameraintrinsika oder Blickwinkel von der menschlichen Sehweise abweichen. Webseite: https://enact-embodied-cognition.github.io/.
English
Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.