FreeAskWorld: Ein interaktiver und geschlossener Simulator für menschenzentrierte verkörperte KI
FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI
November 17, 2025
papers.authors: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong
cs.AI
papers.abstract
Mit der Etablierung von verkörpertter Intelligenz als zentrale Forschungsfront in der KI-Forschung müssen Simulationsplattformen über niedrige physikalische Interaktionen hinauswachsen, um komplexe, menschenzentrierte soziale Verhaltensweisen zu erfassen. Wir stellen FreeAskWorld vor, ein interaktives Simulationsframework, das große Sprachmodelle (LLMs) zur Verhaltensplanung auf hoher Ebene und für semantisch fundierte Interaktion integriert, basierend auf Theorien der Intentionalität und sozialen Kognition. Unser Framework unterstützt skalierbare, realistische Mensch-Agenten-Simulationen und beinhaltet eine modulare Datengenerierungspipeline für vielfältige verkörperte Aufgaben.
Um das Framework zu validieren, erweitern wir die klassische Vision-and-Language-Navigation (VLN)-Aufgabe zu einer interaktionsangereicherten "Direction Inquiry"-Umgebung, in der Agenten aktiv navigatorische Anweisungen einholen und interpretieren können. Wir präsentieren und veröffentlichen FreeAskWorld, einen groß angelegten Benchmark-Datensatz, der rekonstruierte Umgebungen, sechs verschiedene Aufgabentypen, 16 Kernobjektkategorien, 63.429 annotierte Beispielbilder und über 17 Stunden Interaktionsdaten zur Unterstützung von Training und Evaluation verkörperter KI-Systeme umfasst. Wir evaluieren VLN-Modelle und menschliche Teilnehmer sowohl unter Open-Loop- als auch Closed-Loop-Bedingungen. Experimentelle Ergebnisse zeigen, dass auf FreeAskWorld feinabgestimmte Modelle ihre ursprünglichen Gegenstücke übertreffen und ein verbessertes semantisches Verständnis sowie höhere Interaktionsfähigkeit erreichen. Diese Ergebnisse unterstreichen die Wirksamkeit sozial fundierter Simulationsframeworks für die Weiterentwicklung verkörperter KI-Systeme hin zu anspruchsvollerer Hochlevel-Planung und natürlicherer Mensch-Agenten-Interaktion. Von besonderer Bedeutung ist, dass unsere Arbeit zeigt, dass Interaktion selbst als zusätzliche Informationsmodalität dient.
English
As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.