FreeAskWorld: Интерактивный и замкнутый симулятор для человеко-ориентированного воплощенного искусственного интеллекта
FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI
November 17, 2025
Авторы: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong
cs.AI
Аннотация
По мере того как воплощенный интеллект становится ключевым направлением исследований в области искусственного интеллекта, симуляционные платформы должны эволюционировать за пределы низкоуровневых физических взаимодействий, чтобы охватывать сложные, ориентированные на человека социальные поведения. Мы представляем FreeAskWorld — интерактивную симуляционную платформу, которая интегрирует большие языковые модели (LLM) для планирования поведений высокого уровня и семантически обоснованного взаимодействия, опираясь на теории интенциональности и социального познания. Наша платформа поддерживает масштабируемые, реалистичные симуляции "человек-агент" и включает модульный конвейер генерации данных, адаптированный для разнообразных воплощенных задач.
Для валидации платформы мы расширяем классическую задачу навигации на основе зрения и языка (VLN) до обогащенной взаимодействием постановки "Направленный запрос", в которой агенты могут активно запрашивать и интерпретировать навигационные указания. Мы представляем и публично выпускаем FreeAskWorld — масштабный эталонный набор данных, включающий реконструированные среды, шесть различных типов задач, 16 основных категорий объектов, 63 429 аннотированных кадров-примеров и более 17 часов данных взаимодействия для поддержки обучения и оценки воплощенных систем ИИ. Мы проводим сравнительный анализ моделей VLN и участников-людей в условиях как разомкнутого, так и замкнутого контура. Результаты экспериментов демонстрируют, что модели, дообученные на FreeAskWorld, превосходят свои исходные аналоги, достигая улучшенного семантического понимания и компетентности во взаимодействии. Эти результаты подчеркивают эффективность социально обоснованных симуляционных платформ в продвижении воплощенных систем ИИ к сложному планированию высокого уровня и более естественному взаимодействию "человек-агент". Важно отметить, что наша работа подчеркивает, что само взаимодействие служит дополнительной модальностью информации.
English
As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.