DualTHOR: 不測事態対応型計画のためのデュアルアームヒューマノイドシミュレーションプラットフォーム
DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning
June 19, 2025
著者: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
cs.AI
要旨
現実世界のシナリオにおいて複雑なインタラクティブタスクを実行可能なエンボディドエージェントの開発は、エンボディドAIにおける根本的な課題の一つである。近年のシミュレーションプラットフォームの進展により、エンボディド視覚言語モデル(VLMs)を訓練するためのタスクの多様性は大幅に向上したが、ほとんどのプラットフォームは簡略化されたロボット形態に依存し、低レベルの実行における確率的性質を回避しているため、現実世界のロボットへの転移性が制限されている。これらの課題に対処するため、我々はAI2-THORを拡張した物理ベースのシミュレーションプラットフォーム「DualTHOR」を提案する。このシミュレータは、現実世界のロボットアセット、双腕協調のためのタスクスイート、およびヒューマノイドロボットのための逆運動学ソルバーを含んでいる。さらに、物理ベースの低レベル実行を通じて潜在的な失敗を組み込む緊急対応メカニズムを導入し、現実世界のシナリオとのギャップを埋める。我々のシミュレータは、家庭環境におけるVLMsの頑健性と汎化能力をより包括的に評価することを可能にする。広範な評価により、現在のVLMsは双腕協調に苦戦し、緊急事態を含む現実的な環境での頑健性が限られていることが明らかになり、エンボディドタスクのためのより有能なVLMsを開発するために我々のシミュレータを使用することの重要性が強調された。コードはhttps://github.com/ds199895/DualTHOR.gitで公開されている。
English
Developing embodied agents capable of performing complex interactive tasks in
real-world scenarios remains a fundamental challenge in embodied AI. Although
recent advances in simulation platforms have greatly enhanced task diversity to
train embodied Vision Language Models (VLMs), most platforms rely on simplified
robot morphologies and bypass the stochastic nature of low-level execution,
which limits their transferability to real-world robots. To address these
issues, we present a physics-based simulation platform DualTHOR for complex
dual-arm humanoid robots, built upon an extended version of AI2-THOR. Our
simulator includes real-world robot assets, a task suite for dual-arm
collaboration, and inverse kinematics solvers for humanoid robots. We also
introduce a contingency mechanism that incorporates potential failures through
physics-based low-level execution, bridging the gap to real-world scenarios.
Our simulator enables a more comprehensive evaluation of the robustness and
generalization of VLMs in household environments. Extensive evaluations reveal
that current VLMs struggle with dual-arm coordination and exhibit limited
robustness in realistic environments with contingencies, highlighting the
importance of using our simulator to develop more capable VLMs for embodied
tasks. The code is available at https://github.com/ds199895/DualTHOR.git.