ChatPaper.aiChatPaper

ENACT: Оценка воплощенного познания через моделирование мира эгоцентричного взаимодействия

ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction

November 26, 2025
Авторы: Qineng Wang, Wenlong Huang, Yu Zhou, Hang Yin, Tianwei Bao, Jianwen Lyu, Weiyu Liu, Ruohan Zhang, Jiajun Wu, Li Fei-Fei, Manling Li
cs.AI

Аннотация

Телесное (воплощенное) познание утверждает, что интеллект возникает из сенсомоторного взаимодействия, а не из пассивного наблюдения. Это поднимает интригующий вопрос: проявляют ли современные визуально-языковые модели (VLM), обученные в основном отвлеченным (диэмбодированным) способом, признаки телесного познания? Мы представляем ENACT — эталонный тест, который представляет оценку воплощенного познания как моделирование мира на основе эгоцентричного взаимодействия в формате визуального вопроса-ответа (VQA). Сформулированный как частично наблюдаемый марковский процесс принятия решений (POMDP), действия в котором представляют собой изменения графа сцены, ENACT включает две взаимодополняющие задачи переупорядочивания последовательностей: прямое моделирование мира (переупорядочивание перемешанных наблюдений при заданных действиях) и обратное моделирование мира (переупорядочивание перемешанных действий при заданных наблюдениях). Несмотря на концептуальную простоту, решение этих задач неявно требует наличия способностей, ключевых для воплощенного познания: распознавания аффордансов, причинно-следственного рассуждения об действиях, телесного осознания и интерактивной долгосрочной памяти на основе частично наблюдаемого эгоцентричного ввода, при этом избегая синтеза изображений низкого уровня, который мог бы исказить оценку. Мы предлагаем масштабируемый конвейер, который синтезирует пары "вопрос-ответ" из симуляции робототехники (BEHAVIOR) и оценивает модели на 8 972 парах "вопрос-ответ", охватывающих долгосрочные активности в масштабе дома. Эксперименты выявляют разрыв в производительности между передовыми VLM и человеком, который увеличивается с увеличением горизонта взаимодействия. Модели стабильно показывают лучшие результаты в обратной задаче, чем в прямой, и демонстрируют антропоцентрические смещения, включая предпочтение правосторонних действий и ухудшение производительности, когда внутренние параметры камеры или точки обзора отклоняются от человеческого зрения. Веб-сайт: https://enact-embodied-cognition.github.io/.
English
Embodied cognition argues that intelligence arises from sensorimotor interaction rather than passive observation. It raises an intriguing question: do modern vision-language models (VLMs), trained largely in a disembodied manner, exhibit signs of embodied cognition? We introduce ENACT, a benchmark that casts evaluation of embodied cognition as world modeling from egocentric interaction in a visual question answering (VQA) format. Framed as a partially observable Markov decision process (POMDP) whose actions are scene graph changes, ENACT comprises two complementary sequence reordering tasks: forward world modeling (reorder shuffled observations given actions) and inverse world modeling (reorder shuffled actions given observations). While conceptually simple, solving these tasks implicitly demands capabilities central to embodied cognition-affordance recognition, action-effect reasoning, embodied awareness, and interactive, long-horizon memory from partially observable egocentric input, while avoiding low-level image synthesis that could confound the evaluation. We provide a scalable pipeline that synthesizes QA pairs from robotics simulation (BEHAVIOR) and evaluates models on 8,972 QA pairs spanning long-horizon home-scale activities. Experiments reveal a performance gap between frontier VLMs and humans that widens with interaction horizon. Models consistently perform better on the inverse task than the forward one and exhibit anthropocentric biases, including a preference for right-handed actions and degradation when camera intrinsics or viewpoints deviate from human vision. Website at https://enact-embodied-cognition.github.io/.
PDF112December 1, 2025