ChatPaper.aiChatPaper

DualTHOR: Uma Plataforma de Simulação Humanóide de Dois Braços para Planejamento com Consciência de Contingências

DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

June 19, 2025
Autores: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
cs.AI

Resumo

O desenvolvimento de agentes corporificados capazes de realizar tarefas interativas complexas em cenários do mundo real continua sendo um desafio fundamental na IA corporificada. Embora avanços recentes em plataformas de simulação tenham ampliado significativamente a diversidade de tarefas para treinar Modelos de Visão e Linguagem Corporificados (VLMs), a maioria das plataformas depende de morfologias robóticas simplificadas e ignora a natureza estocástica da execução em baixo nível, o que limita sua transferibilidade para robôs do mundo real. Para abordar essas questões, apresentamos uma plataforma de simulação baseada em física, DualTHOR, para robôs humanoides de braços duplos, construída sobre uma versão estendida do AI2-THOR. Nosso simulador inclui ativos de robôs do mundo real, um conjunto de tarefas para colaboração de braços duplos e solucionadores de cinemática inversa para robôs humanoides. Também introduzimos um mecanismo de contingência que incorpora possíveis falhas por meio da execução em baixo nível baseada em física, reduzindo a lacuna para cenários do mundo real. Nosso simulador permite uma avaliação mais abrangente da robustez e generalização de VLMs em ambientes domésticos. Avaliações extensivas revelam que os VLMs atuais têm dificuldades com a coordenação de braços duplos e exibem robustez limitada em ambientes realistas com contingências, destacando a importância de usar nosso simulador para desenvolver VLMs mais capazes para tarefas corporificadas. O código está disponível em https://github.com/ds199895/DualTHOR.git.
English
Developing embodied agents capable of performing complex interactive tasks in real-world scenarios remains a fundamental challenge in embodied AI. Although recent advances in simulation platforms have greatly enhanced task diversity to train embodied Vision Language Models (VLMs), most platforms rely on simplified robot morphologies and bypass the stochastic nature of low-level execution, which limits their transferability to real-world robots. To address these issues, we present a physics-based simulation platform DualTHOR for complex dual-arm humanoid robots, built upon an extended version of AI2-THOR. Our simulator includes real-world robot assets, a task suite for dual-arm collaboration, and inverse kinematics solvers for humanoid robots. We also introduce a contingency mechanism that incorporates potential failures through physics-based low-level execution, bridging the gap to real-world scenarios. Our simulator enables a more comprehensive evaluation of the robustness and generalization of VLMs in household environments. Extensive evaluations reveal that current VLMs struggle with dual-arm coordination and exhibit limited robustness in realistic environments with contingencies, highlighting the importance of using our simulator to develop more capable VLMs for embodied tasks. The code is available at https://github.com/ds199895/DualTHOR.git.
PDF222June 26, 2025