ENACT: Valutazione della Cognizione Incorporata attraverso la Modellizzazione Mondiale delle Interazioni Egocentriche
ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
November 26, 2025
Autori: Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI
Abstract
La cognizione incarnata sostiene che l'intelligenza emerga dall'interazione sensorimotoria piuttosto che dall'osservazione passiva. Ciò solleva una domanda intrigante: i moderni modelli visione-linguaggio (VLM), addestrati in gran parte in modo disincarnato, mostrano segni di cognizione incarnata? Introduciamo ENACT, un benchmark che inquadra la valutazione della cognizione incarnata come modellazione del mondo a partire dall'interazione egocentrica in un formato di domanda-risposta visiva (VQA). Inquadrato come un processo decisionale di Markov parzialmente osservabile (POMDP) le cui azioni sono cambiamenti di grafi della scena, ENACT comprende due compiti complementari di riordinamento di sequenze: modellazione del mondo in avanti (riordinare osservazioni mescolate date le azioni) e modellazione del mondo inversa (riordinare azioni mescolate date le osservazioni). Sebbene concettualmente semplici, la risoluzione di questi compiti richiede implicitamente capacità centrali per la cognizione incarnata: riconoscimento delle affordance, ragionamento azione-effetto, consapevolezza incarnata e memoria interattiva a lungo orizzonte da input egocentrico parzialmente osservabile, evitando al contempo la sintesi di immagini a basso livello che potrebbe confondere la valutazione. Forniamo una pipeline scalabile che sintetizza coppie domanda-risposta dalla simulazione robotica (BEHAVIOR) e valuta i modelli su 8.972 coppie QA che abbracciano attività domestiche a lungo orizzonte. Gli esperimenti rivelano un divario prestazionale tra i VLM all'avanguardia e gli esseri umani che si amplia con l'orizzonte interattivo. I modelli performano costantemente meglio nel compito inverso che in quello in avanti ed esibiscono bias antropocentrici, inclusa una preferenza per azioni con la mano destra e un degrado quando le intrinseche della camera o i punti di vista deviano dalla visione umana. Sito web all'indirizzo https://enact-embodied-cognition.github.io/.
English
Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.