ChatPaper.aiChatPaper

FreeAskWorld: 인간 중심 구현 AI를 위한 상호작용형 폐루프 시뮬레이터

FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

November 17, 2025
저자: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong
cs.AI

초록

구현된 지능(embodied intelligence)이 인공지능 연구의 핵심 프론티어로 부상함에 따라, 시뮬레이션 플랫폼은 저수준 물리적 상호작용을 넘어 복잡하고 인간 중심적인 사회적 행동을 포착할 수 있도록 진화해야 합니다. 본 연구에서는 의도와 사회적 인지 이론에 기반하여, 고수준 행동 계획 및 의미론적으로 기반한 상호작용을 위해 대규모 언어 모델(LLM)을 통합한 상호작용형 시뮬레이션 프레임워크인 FreeAskWorld를 소개합니다. 본 프레임워크는 확장 가능하고 현실적인 인간-에이전트 시뮬레이션을 지원하며, 다양한 구현 작업에 맞춤화된 모듈형 데이터 생성 파이프라인을 포함합니다. 본 프레임워크의 타당성을 검증하기 위해, 우리는 기존의 시각 및 언어 내비게이션(VLN) 과제를 상호작용이 풍부한 '방향 질의' 설정으로 확장합니다. 여기서 에이전트는 능동적으로 탐색 안내를 구하고 해석할 수 있습니다. 우리는 재구성된 환경, 6가지 다양한 작업 유형, 16개의 핵심 객체 범주, 63,429개의 주석이 달린 샘플 프레임, 17시간 이상의 상호작용 데이터를 포함하여 구현 AI 시스템의 훈련과 평가를 지원하는 대규모 벤치마크 데이터셋인 FreeAskWorld를 공개합니다. 우리는 오픈 루프와 클로즈드 루프 설정 하에서 VLN 모델과 인간 참가자에 대한 벤치마크를 수행합니다. 실험 결과, FreeAskWorld 데이터로 미세 조정된 모델들이 원본 모델 대비 향상된 의미 이해와 상호작용 능력을 달성하며 우수한 성능을 보여줍니다. 이러한 결과는 사회적 기반을 가진 시뮬레이션 프레임워크가 구현 AI 시스템을 정교한 고수준 계획 및 더욱 자연스러운 인간-에이전트 상호작용으로 발전시키는 데 효과적임을 입증합니다. 무엇보다도, 본 연구는 상호작용 그 자체가 추가적인 정보 양식(modality)으로 기능함을 강조합니다.
English
As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.
PDF62December 2, 2025