ChatPaper.aiChatPaper

FreeAskWorld : Un simulateur interactif et en boucle fermée pour l'IA incarnée centrée sur l'humain

FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

November 17, 2025
papers.authors: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong
cs.AI

papers.abstract

Alors que l'intelligence incarnée émerge comme une frontière centrale de la recherche en intelligence artificielle, les plateformes de simulation doivent évoluer au-delà des interactions physiques de bas niveau pour capturer des comportements sociaux complexes et centrés sur l'humain. Nous présentons FreeAskWorld, un cadre de simulation interactif qui intègre des grands modèles de langage (LLM) pour la planification comportementale de haut niveau et des interactions ancrées sémantiquement, inspiré par les théories de l'intention et de la cognition sociale. Notre cadre prend en charge des simulations humain-agent réalistes et évolutives et inclut un pipeline modulaire de génération de données conçu pour diverses tâches incarnées. Pour valider ce cadre, nous étendons la tâche classique de Navigation Visuelle et Linguistique (VLN) vers un scénario d'Inquisition de Direction enrichi par l'interaction, dans lequel les agents peuvent activement rechercher et interpréter des instructions de navigation. Nous présentons et rendons publique FreeAskWorld, une base de données de référence à grande échelle comprenant des environnements reconstruits, six types de tâches variées, 16 catégories d'objets principaux, 63 429 images échantillons annotées et plus de 17 heures de données d'interaction pour soutenir l'entraînement et l'évaluation des systèmes d'IA incarnée. Nous évaluons des modèles de VLN et des participants humains dans des configurations en boucle ouverte et en boucle fermée. Les résultats expérimentaux démontrent que les modèles fine-tunés sur FreeAskWorld surpassent leurs homologues originaux, atteignant une compréhension sémantique améliorée et une compétence interactionnelle accrue. Ces résultats soulignent l'efficacité des cadres de simulation socialement ancrés pour faire progresser les systèmes d'IA incarnée vers une planification de haut niveau sophistiquée et une interaction humain-agent plus naturelle. Surtout, notre travail souligne que l'interaction elle-même constitue une modalité informationnelle supplémentaire.
English
As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.
PDF62December 2, 2025