DualTHOR: Una Piattaforma di Simulazione Umanoide a Doppio Braccio per la Pianificazione Consapevole delle Contingenze
DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning
June 19, 2025
Autori: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
cs.AI
Abstract
Sviluppare agenti incarnati in grado di eseguire compiti interattivi complessi in scenari del mondo reale rimane una sfida fondamentale nell'AI incarnata. Sebbene i recenti progressi nelle piattaforme di simulazione abbiano notevolmente ampliato la diversità dei compiti per addestrare modelli di visione e linguaggio incarnati (VLMs), la maggior parte di queste piattaforme si basa su morfologie robotiche semplificate e aggira la natura stocastica dell'esecuzione a basso livello, limitando così la loro trasferibilità ai robot del mondo reale. Per affrontare questi problemi, presentiamo DualTHOR, una piattaforma di simulazione basata sulla fisica per robot umanoidi a doppio braccio complessi, costruita su una versione estesa di AI2-THOR. Il nostro simulatore include asset robotici del mondo reale, una suite di compiti per la collaborazione a doppio braccio e risolutori di cinematica inversa per robot umanoidi. Introduciamo inoltre un meccanismo di contingenza che incorpora potenziali fallimenti attraverso l'esecuzione a basso livello basata sulla fisica, colmando il divario con gli scenari del mondo reale. Il nostro simulatore consente una valutazione più completa della robustezza e della generalizzazione dei VLMs in ambienti domestici. Valutazioni estensive rivelano che gli attuali VLMs faticano nella coordinazione a doppio braccio e mostrano una robustezza limitata in ambienti realistici con contingenze, sottolineando l'importanza di utilizzare il nostro simulatore per sviluppare VLMs più capaci per compiti incarnati. Il codice è disponibile all'indirizzo https://github.com/ds199895/DualTHOR.git.
English
Developing embodied agents capable of performing complex interactive tasks in
real-world scenarios remains a fundamental challenge in embodied AI. Although
recent advances in simulation platforms have greatly enhanced task diversity to
train embodied Vision Language Models (VLMs), most platforms rely on simplified
robot morphologies and bypass the stochastic nature of low-level execution,
which limits their transferability to real-world robots. To address these
issues, we present a physics-based simulation platform DualTHOR for complex
dual-arm humanoid robots, built upon an extended version of AI2-THOR. Our
simulator includes real-world robot assets, a task suite for dual-arm
collaboration, and inverse kinematics solvers for humanoid robots. We also
introduce a contingency mechanism that incorporates potential failures through
physics-based low-level execution, bridging the gap to real-world scenarios.
Our simulator enables a more comprehensive evaluation of the robustness and
generalization of VLMs in household environments. Extensive evaluations reveal
that current VLMs struggle with dual-arm coordination and exhibit limited
robustness in realistic environments with contingencies, highlighting the
importance of using our simulator to develop more capable VLMs for embodied
tasks. The code is available at https://github.com/ds199895/DualTHOR.git.