ChatPaper.aiChatPaper

FreeAskWorld: Um Simulador Interativo e de Ciclo Fechado para IA Corporificada Centrada no Humano

FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

November 17, 2025
Autores: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong
cs.AI

Resumo

À medida que a inteligência incorporada emerge como uma fronteira central na pesquisa de inteligência artificial, as plataformas de simulação devem evoluir além das interações físicas de baixo nível para capturar comportamentos sociais complexos e centrados no ser humano. Apresentamos o FreeAskWorld, uma estrutura de simulação interativa que integra modelos de linguagem de grande escala (LLMs) para planeamento comportamental de alto nível e interação semanticamente fundamentada, baseada em teorias de intencionalidade e cognição social. Nossa estrutura suporta simulações realistas e escaláveis entre humanos e agentes, incluindo um pipeline modular de geração de dados adaptado para diversas tarefas de incorporação. Para validar a estrutura, estendemos a tarefa clássica de Navegação por Visão e Linguagem (VLN) para um cenário de Consulta Direcional enriquecido com interação, no qual os agentes podem procurar e interpretar ativamente orientações de navegação. Apresentamos e disponibilizamos publicamente o FreeAskWorld, um conjunto de dados de referência em larga escala que compreende ambientes reconstruídos, seis tipos diversos de tarefas, 16 categorias principais de objetos, 63.429 quadros de amostra anotados e mais de 17 horas de dados de interação para apoiar o treino e a avaliação de sistemas de IA incorporada. Avaliamos modelos de VLN e participantes humanos em configurações de ciclo aberto e ciclo fechado. Os resultados experimentais demonstram que os modelos afinados no FreeAskWorld superam as suas contrapartes originais, alcançando uma compreensão semântica e uma competência interativa aprimoradas. Estas descobertas sublinham a eficácia de estruturas de simulação socialmente fundamentadas no avanço de sistemas de IA incorporada em direção a um planeamento de alto nível sofisticado e a uma interação mais naturalista entre humanos e agentes. Importante, o nosso trabalho salienta que a interação em si serve como uma modalidade adicional de informação.
English
As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.
PDF72February 24, 2026