ChatPaper.aiChatPaper

ENACT: Evaluación de la Cognición Corporizada mediante Modelado Mundial de la Interacción Egocéntrica

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

November 26, 2025
Autores: Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI

Resumen

La cognición incorporada sostiene que la inteligencia surge de la interacción sensoriomotora más que de la observación pasiva. Esto plantea una pregunta intrigante: ¿los modelos visión-lenguaje (VLM) modernos, entrenados mayormente de manera desincorporada, muestran signos de cognición incorporada? Presentamos ENACT, un benchmark que plantea la evaluación de la cognición incorporada como un modelado del mundo a partir de interacciones en primera persona, bajo el formato de respuesta a preguntas visuales (VQA). Enmarcado como un proceso de decisión markoviano parcialmente observable (POMDP) cuyas acciones son cambios en grafos de escena, ENACT comprende dos tareas complementarias de reordenamiento de secuencias: modelado del mundo hacia adelante (reordenar observaciones desordenadas dadas las acciones) y modelado del mundo inverso (reordenar acciones desordenadas dadas las observaciones). Aunque conceptualmente simples, resolver estas tareas exige implícitamente capacidades centrales para la cognición incorporada: reconocimiento de affordances, razonamiento de acción-efecto, conciencia incorporada y memoria interactiva de largo horizonte a partir de entradas egocéntricas parcialmente observables, evitando al mismo tiempo la síntesis de imágenes de bajo nivel que podría sesgar la evaluación. Proporcionamos un pipeline escalable que sintetiza pares de preguntas y respuestas a partir de simulaciones robóticas (BEHAVIOR) y evalúa modelos en 8,972 pares de QA que abarcan actividades de largo horizonte en entornos domésticos. Los experimentos revelan una brecha de rendimiento entre los VLM de vanguardia y los humanos que se amplía con el horizonte de interacción. Los modelos rinden consistentemente mejor en la tarea inversa que en la directa y muestran sesgos antropocéntricos, incluyendo una preferencia por acciones con la mano derecha y un deterioro cuando las características intrínsecas de la cámara o los puntos de vista se desvían de la visión humana. Sitio web en https://enact-embodied-cognition.github.io/.
English
Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.
PDF112December 1, 2025