FreeAskWorld: Un simulador interactivo y de circuito cerrado para IA encarnada centrada en el ser humano
FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI
November 17, 2025
Autores: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong
cs.AI
Resumen
A medida que la inteligencia corporeizada emerge como una frontera fundamental en la investigación de la inteligencia artificial, las plataformas de simulación deben evolucionar más allá de las interacciones físicas de bajo nivel para capturar comportamientos sociales complejos y centrados en lo humano. Presentamos FreeAskWorld, un marco de simulación interactivo que integra modelos de lenguaje extenso (LLM) para la planificación de comportamientos de alto nivel y la interacción semánticamente fundamentada, basándose en teorías de la intención y la cognición social. Nuestro marco permite simulaciones escalables y realistas entre humanos y agentes, e incluye un proceso modular de generación de datos adaptado para diversas tareas de inteligencia corporeizada.
Para validar el marco, extendemos la tarea clásica de Navegación con Visión y Lenguaje (VLN) a un entorno de Consulta Direccional enriquecido con interacción, donde los agentes pueden buscar e interpretar activamente instrucciones de navegación. Presentamos y publicamos FreeAskWorld, un conjunto de datos de referencia a gran escala que comprende entornos reconstruidos, seis tipos de tareas diversas, 16 categorías de objetos principales, 63,429 fotogramas muestrales anotados y más de 17 horas de datos de interacción para apoyar el entrenamiento y la evaluación de sistemas de IA corporeizada. Evaluamos modelos de VLN y participantes humanos en configuraciones tanto de lazo abierto como de lazo cerrado. Los resultados experimentales demuestran que los modelos ajustados en FreeAskWorld superan a sus contrapartes originales, logrando una comprensión semántica mejorada y una mayor competencia interactiva. Estos hallazgos subrayan la eficacia de los marcos de simulación socialmente fundamentados para impulsar a los sistemas de IA corporeizada hacia una planificación de alto nivel más sofisticada y una interacción humano-agente más naturalista. Es importante destacar que nuestro trabajo subraya que la interacción en sí misma constituye una modalidad de información adicional.
English
As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.