ENACT: Avaliação da Cognição Incorporada com Modelagem Mundial da Interação Egocêntrica

Resumo

A cognição incorporada argumenta que a inteligência surge da interação sensório-motora, e não da observação passiva. Isso levanta uma questão intrigante: os modernos modelos de visão e linguagem (VLMs), treinados em grande parte de maneira desincorporada, exibem sinais de cognição incorporada? Apresentamos o ENACT, um benchmark que transforma a avaliação da cognição incorporada em modelagem do mundo a partir da interação egocêntrica, no formato de resposta a perguntas visuais (VQA). Estruturado como um processo de decisão de Markov parcialmente observável (POMDP) cujas ações são alterações no grafo da cena, o ENACT compreende duas tarefas complementares de reordenação de sequências: modelagem direta do mundo (reordenar observações embaralhadas dadas as ações) e modelagem inversa do mundo (reordenar ações embaralhadas dadas as observações). Embora conceitualmente simples, resolver essas tarefas exige implicitamente capacidades centrais para a cognição incorporada: reconhecimento de affordances, raciocínio sobre ação-efeito, consciência incorporada e memória interativa de longo prazo a partir de entradas egocêntricas parcialmente observáveis, evitando ao mesmo tempo a síntese de imagens de baixo nível que poderia confundir a avaliação. Fornecemos um pipeline escalável que sintetiza pares de perguntas e respostas a partir de simulações robóticas (BEHAVIOR) e avalia os modelos em 8.972 pares de QA abrangendo atividades domésticas de longo prazo. Os experimentos revelam uma lacuna de desempenho entre os VLMs de ponta e os humanos que aumenta com o horizonte de interação. Os modelos apresentam consistentemente melhor desempenho na tarefa inversa do que na direta e exibem vieses antropocêntricos, incluindo uma preferência por ações destras e degradação quando as intrínsecas da câmera ou os pontos de vista se desviam da visão humana. Site em https://enact-embodied-cognition.github.io/.

English

Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.

ENACT: Avaliação da Cognição Incorporada com Modelagem Mundial da Interação Egocêntrica

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

Resumo

Support