ChatPaper.aiChatPaper

DualTHOR: 예외 상황 인지 계획을 위한 듀얼 암 휴머노이드 시뮬레이션 플랫폼

DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

June 19, 2025
저자: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
cs.AI

초록

실제 환경에서 복잡한 상호작용 작업을 수행할 수 있는 구체화된 에이전트를 개발하는 것은 구체화된 AI의 근본적인 과제로 남아 있습니다. 최근 시뮬레이션 플랫폼의 발전으로 구체화된 시각 언어 모델(VLMs)을 훈련시키기 위한 작업 다양성이 크게 향상되었지만, 대부분의 플랫폼은 단순화된 로봇 형태를 사용하고 저수준 실행의 확률적 특성을 우회함으로써 실제 로봇으로의 전이성을 제한하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 AI2-THOR의 확장 버전을 기반으로 한 복잡한 이중 팔 휴머노이드 로봇을 위한 물리 기반 시뮬레이션 플랫폼인 DualTHOR를 소개합니다. 우리의 시뮬레이터는 실제 로봇 자산, 이중 팔 협업을 위한 작업 세트, 그리고 휴머노이드 로봇을 위한 역기구학 솔버를 포함하고 있습니다. 또한, 물리 기반 저수준 실행을 통해 잠재적 실패를 통합하는 비상 메커니즘을 도입하여 실제 시나리오와의 격차를 줄였습니다. 우리의 시뮬레이터는 가정 환경에서 VLMs의 견고성과 일반화를 보다 포괄적으로 평가할 수 있게 합니다. 광범위한 평가 결과, 현재의 VLMs은 이중 팔 조율에 어려움을 겪고 비상 상황이 포함된 현실적인 환경에서 제한된 견고성을 보여주며, 구체화된 작업을 위한 더 능력 있는 VLMs을 개발하기 위해 우리의 시뮬레이터를 사용하는 것의 중요성을 강조합니다. 코드는 https://github.com/ds199895/DualTHOR.git에서 확인할 수 있습니다.
English
Developing embodied agents capable of performing complex interactive tasks in real-world scenarios remains a fundamental challenge in embodied AI. Although recent advances in simulation platforms have greatly enhanced task diversity to train embodied Vision Language Models (VLMs), most platforms rely on simplified robot morphologies and bypass the stochastic nature of low-level execution, which limits their transferability to real-world robots. To address these issues, we present a physics-based simulation platform DualTHOR for complex dual-arm humanoid robots, built upon an extended version of AI2-THOR. Our simulator includes real-world robot assets, a task suite for dual-arm collaboration, and inverse kinematics solvers for humanoid robots. We also introduce a contingency mechanism that incorporates potential failures through physics-based low-level execution, bridging the gap to real-world scenarios. Our simulator enables a more comprehensive evaluation of the robustness and generalization of VLMs in household environments. Extensive evaluations reveal that current VLMs struggle with dual-arm coordination and exhibit limited robustness in realistic environments with contingencies, highlighting the importance of using our simulator to develop more capable VLMs for embodied tasks. The code is available at https://github.com/ds199895/DualTHOR.git.
PDF192June 26, 2025