ChatPaper.aiChatPaper

DualTHOR: Una Plataforma de Simulación Humanoide de Doble Brazo para la Planificación Consciente de Contingencias

DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

June 19, 2025
Autores: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
cs.AI

Resumen

El desarrollo de agentes corporizados capaces de realizar tareas interactivas complejas en escenarios del mundo real sigue siendo un desafío fundamental en la inteligencia artificial corporizada. Aunque los avances recientes en plataformas de simulación han mejorado significativamente la diversidad de tareas para entrenar modelos de visión y lenguaje corporizados (VLMs, por sus siglas en inglés), la mayoría de estas plataformas dependen de morfologías robóticas simplificadas y evitan la naturaleza estocástica de la ejecución de bajo nivel, lo que limita su transferibilidad a robots del mundo real. Para abordar estos problemas, presentamos DualTHOR, una plataforma de simulación basada en física para robots humanoides de doble brazo, construida sobre una versión extendida de AI2-THOR. Nuestro simulador incluye activos robóticos del mundo real, un conjunto de tareas para la colaboración de doble brazo y solucionadores de cinemática inversa para robots humanoides. También introducimos un mecanismo de contingencia que incorpora fallos potenciales a través de la ejecución de bajo nivel basada en física, reduciendo la brecha hacia escenarios del mundo real. Nuestro simulador permite una evaluación más completa de la robustez y generalización de los VLMs en entornos domésticos. Evaluaciones extensivas revelan que los VLMs actuales tienen dificultades con la coordinación de doble brazo y muestran una robustez limitada en entornos realistas con contingencias, destacando la importancia de utilizar nuestro simulador para desarrollar VLMs más capaces para tareas corporizadas. El código está disponible en https://github.com/ds199895/DualTHOR.git.
English
Developing embodied agents capable of performing complex interactive tasks in real-world scenarios remains a fundamental challenge in embodied AI. Although recent advances in simulation platforms have greatly enhanced task diversity to train embodied Vision Language Models (VLMs), most platforms rely on simplified robot morphologies and bypass the stochastic nature of low-level execution, which limits their transferability to real-world robots. To address these issues, we present a physics-based simulation platform DualTHOR for complex dual-arm humanoid robots, built upon an extended version of AI2-THOR. Our simulator includes real-world robot assets, a task suite for dual-arm collaboration, and inverse kinematics solvers for humanoid robots. We also introduce a contingency mechanism that incorporates potential failures through physics-based low-level execution, bridging the gap to real-world scenarios. Our simulator enables a more comprehensive evaluation of the robustness and generalization of VLMs in household environments. Extensive evaluations reveal that current VLMs struggle with dual-arm coordination and exhibit limited robustness in realistic environments with contingencies, highlighting the importance of using our simulator to develop more capable VLMs for embodied tasks. The code is available at https://github.com/ds199895/DualTHOR.git.
PDF192June 26, 2025