ChatPaper.aiChatPaper

FreeAskWorld: 人間中心の具身AIのための対話型閉ループシミュレータ

FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

November 17, 2025
著者: Yuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong
cs.AI

要旨

具体化された知能が人工知能研究の核心的フロンティアとして台頭する中、シミュレーションプラットフォームは低レベルの物理的相互作用を超え、複雑で人間中心の社会的行動を捉えるように進化しなければならない。本論文では、意図と社会的認知の理論に基づき、高次元の行動計画と意味的に接地されたインタラクションを大規模言語モデル(LLM)と統合した対話型シミュレーションフレームワーク「FreeAskWorld」を提案する。本フレームワークは、拡張性が高く現実的な人間-エージェントシミュレーションを支援し、多様な具体化タスクに特化したモジュール型データ生成パイプラインを備えている。 本フレームワークを検証するため、古典的な視覚言語ナビゲーション(VLN)タスクを、エージェントが能動的にナビゲーション指示を求め解釈する「対話型方向問い合わせ」設定へ拡張する。我々は、再構築された環境、6つの多様なタスクタイプ、16の核心的オブジェクトカテゴリ、63,429枚の注釈付きサンプルフレーム、17時間以上のインタラクションデータを含む大規模ベンチマークデータセット「FreeAskWorld」を公開する。本データセットを用いて、VLNモデルと人間参加者をオープンループ設定とクローズドループ設定で比較評価した。実験結果は、FreeAskWorldでファインチューニングされたモデルが元のモデルを上回り、意味理解能力と対話能力が向上することを示す。これらの知見は、社会的に接地されたシミュレーションフレームワークが、具体化AIシステムの高次元計画能力と自然な人間-エージェントインタラクションの発展に有効であることを実証する。特に重要なのは、インタラクション自体が追加の情報モダリティとして機能することを我々の研究が強調している点である。
English
As embodied intelligence emerges as a core frontier in artificial intelligence research, simulation platforms must evolve beyond low-level physical interactions to capture complex, human-centered social behaviors. We introduce FreeAskWorld, an interactive simulation framework that integrates large language models (LLMs) for high-level behavior planning and semantically grounded interaction, informed by theories of intention and social cognition. Our framework supports scalable, realistic human-agent simulations and includes a modular data generation pipeline tailored for diverse embodied tasks.To validate the framework, we extend the classic Vision-and-Language Navigation (VLN) task into a interaction enriched Direction Inquiry setting, wherein agents can actively seek and interpret navigational guidance. We present and publicly release FreeAskWorld, a large-scale benchmark dataset comprising reconstructed environments, six diverse task types, 16 core object categories, 63,429 annotated sample frames, and more than 17 hours of interaction data to support training and evaluation of embodied AI systems. We benchmark VLN models, and human participants under both open-loop and closed-loop settings. Experimental results demonstrate that models fine-tuned on FreeAskWorld outperform their original counterparts, achieving enhanced semantic understanding and interaction competency. These findings underscore the efficacy of socially grounded simulation frameworks in advancing embodied AI systems toward sophisticated high-level planning and more naturalistic human-agent interaction. Importantly, our work underscores that interaction itself serves as an additional information modality.
PDF62December 2, 2025