ChatPaper.aiChatPaper

DualTHOR : Une plateforme de simulation humanoïde à double bras pour la planification tenant compte des imprévus

DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

June 19, 2025
Auteurs: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
cs.AI

Résumé

Le développement d’agents incarnés capables d’exécuter des tâches interactives complexes dans des scénarios réels demeure un défi fondamental dans le domaine de l’intelligence artificielle incarnée. Bien que les progrès récents dans les plateformes de simulation aient considérablement enrichi la diversité des tâches pour entraîner des modèles vision-langage incarnés (VLMs), la plupart de ces plateformes reposent sur des morphologies robotiques simplifiées et contournent la nature stochastique de l’exécution de bas niveau, ce qui limite leur transférabilité aux robots réels. Pour résoudre ces problèmes, nous présentons DualTHOR, une plateforme de simulation basée sur la physique dédiée aux robots humanoïdes à deux bras complexes, construite sur une version étendue d’AI2-THOR. Notre simulateur intègre des modèles de robots réels, une suite de tâches pour la collaboration à deux bras, ainsi que des solveurs de cinématique inverse pour les robots humanoïdes. Nous introduisons également un mécanisme de contingence qui intègre des échecs potentiels via une exécution de bas niveau basée sur la physique, réduisant ainsi l’écart avec les scénarios réels. Notre simulateur permet une évaluation plus complète de la robustesse et de la généralisation des VLMs dans des environnements domestiques. Des évaluations approfondies révèlent que les VLMs actuels éprouvent des difficultés dans la coordination à deux bras et présentent une robustesse limitée dans des environnements réalistes incluant des contingences, soulignant l’importance d’utiliser notre simulateur pour développer des VLMs plus performants pour les tâches incarnées. Le code est disponible à l’adresse suivante : https://github.com/ds199895/DualTHOR.git.
English
Developing embodied agents capable of performing complex interactive tasks in real-world scenarios remains a fundamental challenge in embodied AI. Although recent advances in simulation platforms have greatly enhanced task diversity to train embodied Vision Language Models (VLMs), most platforms rely on simplified robot morphologies and bypass the stochastic nature of low-level execution, which limits their transferability to real-world robots. To address these issues, we present a physics-based simulation platform DualTHOR for complex dual-arm humanoid robots, built upon an extended version of AI2-THOR. Our simulator includes real-world robot assets, a task suite for dual-arm collaboration, and inverse kinematics solvers for humanoid robots. We also introduce a contingency mechanism that incorporates potential failures through physics-based low-level execution, bridging the gap to real-world scenarios. Our simulator enables a more comprehensive evaluation of the robustness and generalization of VLMs in household environments. Extensive evaluations reveal that current VLMs struggle with dual-arm coordination and exhibit limited robustness in realistic environments with contingencies, highlighting the importance of using our simulator to develop more capable VLMs for embodied tasks. The code is available at https://github.com/ds199895/DualTHOR.git.
PDF192June 26, 2025