DualTHOR: Платформа симуляции гуманоидного робота с двумя манипуляторами для планирования с учетом непредвиденных ситуаций
DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning
June 19, 2025
Авторы: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
cs.AI
Аннотация
Разработка воплощенных агентов, способных выполнять сложные интерактивные задачи в реальных сценариях, остается фундаментальной проблемой в области воплощенного искусственного интеллекта. Хотя недавние достижения в области симуляционных платформ значительно расширили разнообразие задач для обучения воплощенных моделей зрения и языка (VLMs), большинство платформ полагаются на упрощенные морфологии роботов и обходят стохастическую природу низкоуровневого исполнения, что ограничивает их применимость к реальным роботам. Для решения этих проблем мы представляем физически основанную симуляционную платформу DualTHOR для сложных двуруких гуманоидных роботов, построенную на расширенной версии AI2-THOR. Наш симулятор включает в себя модели реальных роботов, набор задач для двуручного взаимодействия и решатели обратной кинематики для гуманоидных роботов. Мы также вводим механизм обработки нештатных ситуаций, который учитывает возможные сбои через физически основанное низкоуровневое исполнение, сокращая разрыв с реальными сценариями. Наш симулятор позволяет проводить более всестороннюю оценку устойчивости и обобщающей способности VLMs в домашних условиях. Обширные оценки показывают, что современные VLMs испытывают трудности с координацией двуручных действий и демонстрируют ограниченную устойчивость в реалистичных условиях с нештатными ситуациями, подчеркивая важность использования нашего симулятора для разработки более эффективных VLMs для воплощенных задач. Код доступен по адресу https://github.com/ds199895/DualTHOR.git.
English
Developing embodied agents capable of performing complex interactive tasks in
real-world scenarios remains a fundamental challenge in embodied AI. Although
recent advances in simulation platforms have greatly enhanced task diversity to
train embodied Vision Language Models (VLMs), most platforms rely on simplified
robot morphologies and bypass the stochastic nature of low-level execution,
which limits their transferability to real-world robots. To address these
issues, we present a physics-based simulation platform DualTHOR for complex
dual-arm humanoid robots, built upon an extended version of AI2-THOR. Our
simulator includes real-world robot assets, a task suite for dual-arm
collaboration, and inverse kinematics solvers for humanoid robots. We also
introduce a contingency mechanism that incorporates potential failures through
physics-based low-level execution, bridging the gap to real-world scenarios.
Our simulator enables a more comprehensive evaluation of the robustness and
generalization of VLMs in household environments. Extensive evaluations reveal
that current VLMs struggle with dual-arm coordination and exhibit limited
robustness in realistic environments with contingencies, highlighting the
importance of using our simulator to develop more capable VLMs for embodied
tasks. The code is available at https://github.com/ds199895/DualTHOR.git.