ChatPaper.aiChatPaper

FreeAskWorld: Een interactieve en gesloten simulator voor mensgerichte embodied AI

FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

November 17, 2025
Auteurs: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong
cs.AI

Samenvatting

Met de opkomst van embodied intelligence als een kernfront in kunstmatige intelligentie-onderzoek moeten simulatiewerelden verder evolueren dan louter fysieke interacties op laag niveau, om complexe, mensgerichte sociale gedragingen te kunnen modelleren. Wij introduceren FreeAskWorld, een interactief simulatiekader dat grote taalmodelen (LLM's) integreert voor gedragsplanning op hoog niveau en semantisch verankerde interactie, geïnformeerd door theorieën over intentie en sociale cognitie. Ons kader ondersteunt schaalbare, realistische mens-agent simulaties en omvat een modulaire datageneratiepijplijn die is toegesneden op diverse embodied taken. Om het kader te valideren, breiden we de klassieke Vision-and-Language Navigation (VLN)-taak uit naar een interactierijke Direction Inquiry-setting, waarin agenten actief navigatie-aanwijzingen kunnen vragen en interpreteren. Wij presenteren en maken publiekelijk beschikbaar FreeAskWorld, een grootschalige benchmarkdataset bestaande uit gereconstrueerde omgevingen, zes uiteenlopende taaktypen, 16 kernobjectcategorieën, 63.429 geannoteerde sampleframes en meer dan 17 uur aan interactiedata ter ondersteuning van training en evaluatie van embodied AI-systemen. Wij evalueren VLN-modellen en menselijke deelnemers in zowel open-loop als closed-loop settings. Experimentele resultaten tonen aan dat modellen die zijn gefinetuned op FreeAskWorld hun oorspronkelijke tegenhangers overtreffen, met verbeterd semantisch begrip en interactievermogen. Deze bevindingen onderstrepen de effectiviteit van sociaal verankerde simulatiekaders voor de vooruitgang van embodied AI-systemen richting geavanceerde planning op hoog niveau en natuurlijkere mens-agent interactie. Cruciaal is dat ons werk benadrukt dat interactie zelf fungeert als een aanvullende informatiedimensie.
English
As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.
PDF62December 2, 2025