ChatPaper.aiChatPaper

DualTHOR: Eine Dual-Arm-Humanoid-Simulationsplattform für kontingenzbewusste Planung

DualTHOR: A Dual-Arm Humanoid Simulation Platform for Contingency-Aware Planning

June 19, 2025
Autoren: Boyu Li, Siyuan He, Hang Xu, Haoqi Yuan, Yu Zang, Liwei Hu, Junpeng Yue, Zhenxiong Jiang, Pengbo Hu, Börje F. Karlsson, Yehui Tang, Zongqing Lu
cs.AI

Zusammenfassung

Die Entwicklung von verkörperten Agenten, die in der Lage sind, komplexe interaktive Aufgaben in realen Szenarien auszuführen, bleibt eine grundlegende Herausforderung in der verkörperten KI. Obwohl jüngste Fortschritte in Simulationsplattformen die Aufgabenvielfalt zur Schulung verkörperter Vision-Sprach-Modelle (VLMs) erheblich verbessert haben, verlassen sich die meisten Plattformen auf vereinfachte Robotermorphologien und umgehen die stochastische Natur der Low-Level-Ausführung, was ihre Übertragbarkeit auf reale Roboter einschränkt. Um diese Probleme zu adressieren, präsentieren wir eine physikbasierte Simulationsplattform namens DualTHOR für komplexe humanoide Roboter mit zwei Armen, die auf einer erweiterten Version von AI2-THOR basiert. Unser Simulator umfasst reale Roboter-Assets, eine Aufgabensammlung für die Zusammenarbeit mit zwei Armen und Inverse-Kinematik-Löser für humanoide Roboter. Wir führen außerdem einen Kontingenzmechanismus ein, der potenzielle Fehler durch physikbasierte Low-Level-Ausführung berücksichtigt und so die Lücke zu realen Szenarien schließt. Unser Simulator ermöglicht eine umfassendere Bewertung der Robustheit und Generalisierung von VLMs in häuslichen Umgebungen. Umfangreiche Auswertungen zeigen, dass aktuelle VLMs Schwierigkeiten mit der Koordination von zwei Armen haben und eine begrenzte Robustheit in realistischen Umgebungen mit Kontingenzen aufweisen, was die Bedeutung der Verwendung unseres Simulators zur Entwicklung leistungsfähigerer VLMs für verkörperte Aufgaben unterstreicht. Der Code ist verfügbar unter https://github.com/ds199895/DualTHOR.git.
English
Developing embodied agents capable of performing complex interactive tasks in real-world scenarios remains a fundamental challenge in embodied AI. Although recent advances in simulation platforms have greatly enhanced task diversity to train embodied Vision Language Models (VLMs), most platforms rely on simplified robot morphologies and bypass the stochastic nature of low-level execution, which limits their transferability to real-world robots. To address these issues, we present a physics-based simulation platform DualTHOR for complex dual-arm humanoid robots, built upon an extended version of AI2-THOR. Our simulator includes real-world robot assets, a task suite for dual-arm collaboration, and inverse kinematics solvers for humanoid robots. We also introduce a contingency mechanism that incorporates potential failures through physics-based low-level execution, bridging the gap to real-world scenarios. Our simulator enables a more comprehensive evaluation of the robustness and generalization of VLMs in household environments. Extensive evaluations reveal that current VLMs struggle with dual-arm coordination and exhibit limited robustness in realistic environments with contingencies, highlighting the importance of using our simulator to develop more capable VLMs for embodied tasks. The code is available at https://github.com/ds199895/DualTHOR.git.
PDF192June 26, 2025