DualTHOR: Een Simulatieplatform voor Dual-Arm Humanoïden voor Contingency-Aware Planning
DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning
June 19, 2025
Auteurs: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
cs.AI
Samenvatting
Het ontwikkelen van belichaamde agents die in staat zijn om complexe interactieve taken uit te voeren in realistische scenario's blijft een fundamentele uitdaging in belichaamde AI. Hoewel recente vooruitgang in simulatieplatformen de taakdiversiteit voor het trainen van belichaamde Vision Language Models (VLMs) aanzienlijk heeft vergroot, vertrouwen de meeste platformen op vereenvoudigde robotmorfologieën en omzeilen ze het stochastische karakter van laagniveau-uitvoering, wat hun overdraagbaarheid naar echte robots beperkt. Om deze problemen aan te pakken, presenteren we een op fysica gebaseerd simulatieplatform genaamd DualTHOR voor complexe humanoïde robots met dubbele armen, gebouwd op een uitgebreide versie van AI2-THOR. Onze simulator omvat realistische robotassets, een taakpakket voor samenwerking met dubbele armen, en inverse kinematica-oplossers voor humanoïde robots. We introduceren ook een noodmechanisme dat potentiële fouten incorporeert via fysica-gebaseerde laagniveau-uitvoering, waardoor de kloof naar realistische scenario's wordt overbrugd. Onze simulator maakt een uitgebreidere evaluatie mogelijk van de robuustheid en generalisatie van VLMs in huishoudelijke omgevingen. Uitgebreide evaluaties tonen aan dat huidige VLMs moeite hebben met de coördinatie van dubbele armen en beperkte robuustheid vertonen in realistische omgevingen met onvoorziene gebeurtenissen, wat het belang onderstreept van het gebruik van onze simulator om capabelere VLMs te ontwikkelen voor belichaamde taken. De code is beschikbaar op https://github.com/ds199895/DualTHOR.git.
English
Developing embodied agents capable of performing complex interactive tasks in
real-world scenarios remains a fundamental challenge in embodied AI. Although
recent advances in simulation platforms have greatly enhanced task diversity to
train embodied Vision Language Models (VLMs), most platforms rely on simplified
robot morphologies and bypass the stochastic nature of low-level execution,
which limits their transferability to real-world robots. To address these
issues, we present a physics-based simulation platform DualTHOR for complex
dual-arm humanoid robots, built upon an extended version of AI2-THOR. Our
simulator includes real-world robot assets, a task suite for dual-arm
collaboration, and inverse kinematics solvers for humanoid robots. We also
introduce a contingency mechanism that incorporates potential failures through
physics-based low-level execution, bridging the gap to real-world scenarios.
Our simulator enables a more comprehensive evaluation of the robustness and
generalization of VLMs in household environments. Extensive evaluations reveal
that current VLMs struggle with dual-arm coordination and exhibit limited
robustness in realistic environments with contingencies, highlighting the
importance of using our simulator to develop more capable VLMs for embodied
tasks. The code is available at https://github.com/ds199895/DualTHOR.git.