FreeAskWorld: Un simulatore interattivo e a ciclo chiuso per l'Intelligenza Artificiale Embodied incentrata sull'umano
FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI
November 17, 2025
Autori: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong
cs.AI
Abstract
Con l'emergere dell'intelligenza embodied come frontiera centrale della ricerca sull'intelligenza artificiale, le piattaforme di simulazione devono evolversi oltre le interazioni fisiche di basso livello per catturare comportamenti sociali complessi e incentrati sull'umano. Presentiamo FreeAskWorld, un framework di simulazione interattivo che integra grandi modelli linguistici (LLM) per la pianificazione comportamentale di alto livello e l'interazione semanticamente fondata, ispirandosi a teorie sull'intenzione e sulla cognizione sociale. Il nostro framework supporta simulazioni umano-agente scalabili e realistiche e include una pipeline modulare per la generazione di dati progettata per vari compiti embodied. Per validare il framework, estendiamo il classico compito di Vision-and-Language Navigation (VLN) in un contesto di Direction Inquiry arricchito dall'interazione, in cui gli agenti possono cercare attivamente e interpretare indicazioni navigazionali. Presentiamo e rendiamo pubblico FreeAskWorld, un dataset di benchmark su larga scala che comprende ambienti ricostruiti, sei tipologie di compiti diverse, 16 categorie di oggetti principali, 63.429 fotogrammi campione annotati e oltre 17 ore di dati di interazione per supportare l'addestramento e la valutazione di sistemi di AI embodied. Effettuiamo benchmark su modelli VLN e partecipanti umani in contesti sia ad anello aperto che chiuso. I risultati sperimentali dimostrano che i modelli addestrati su FreeAskWorld superano le loro controparti originali, raggiungendo una migliore comprensione semantica e una maggiore competenza interattiva. Questi risultati sottolineano l'efficacia di framework di simulazione socialmente fondati nel far progredire i sistemi di AI embodied verso una pianificazione di alto livello più sofisticata e un'interazione umano-agente più naturalistica. È importante notare che il nostro lavoro evidenzia come l'interazione stessa costituisca una modalità informativa aggiuntiva.
English
As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.