ChatPaper.aiChatPaper

ENACT: 自我中心インタラクションの世界モデリングによる身体化認知の評価

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

November 26, 2025
著者: Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI

要旨

身体化認知は、知能が受動的な観察ではなく、感覚運動相互作用から生じると主張する。これは興味深い疑問を提起する:主に非身体的な方法で訓練された現代の視覚言語モデル(VLM)は、身体化認知の兆候を示すのだろうか?我々はENACTを紹介する。これは身体化認知の評価を、視覚質問応答(VQA)形式での一人称視点相互作用からの世界モデリングとして捉えるベンチマークである。部分観測マルコフ決定過程(POMDP)として枠組みされ、その行動はシーングラフの変化に対応するENACTは、二つの相補的な系列再順序付け課題から構成される:順方向世界モデリング(行動が与えられたシャッフル観測の再順序付け)と逆方向世界モデリング(観測が与えられたシャッフル行動の再順序付け)。概念的には単純ながら、これらの課題を解決するには、身体化認知の中核能力―アフォーダンス認識、行動-効果推論、身体化された意識、部分観測的な一人称視点入力からの対話的で長期的な記憶―が暗黙的に要求され、評価を混乱させる可能性のある低レベル画像合成を回避する。我々は、ロボティクスシミュレーション(BEHAVIOR)からQAペアを合成するスケーラブルなパイプラインを提供し、長期的な家庭規模活動にわたる8,972のQAペアでモデルを評価する。実験結果は、フロンティアのVLMと人間の間に性能差があり、その差が相互作用の時間的視野とともに広がることを示す。モデルは一貫して逆方向課題よりも順方向課題で性能が高く、右利き行動への選好や、カメラ内部パラメータや視点が人間の視覚から逸脱した場合の性能劣化といった人間中心バイアスを示す。詳細はウェブサイト(https://enact-embodied-cognition.github.io/)を参照。
English
Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.
PDF112December 1, 2025