ChatPaper.aiChatPaper

Robot-R1: Verstärkendes Lernen zur verbesserten verkörperten Entscheidungsfindung in der Robotik

Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics

May 29, 2025
Autoren: Dongyoung Kim, Sumin Park, Huiwon Jang, Jinwoo Shin, Jaehyung Kim, Younggyo Seo
cs.AI

Zusammenfassung

Große Vision-Sprach-Modelle (Large Vision-Language Models, LVLMs) haben kürzlich großes Potenzial gezeigt, um die Robotik voranzutreiben, indem sie verkörpertes Denken mit der Robotersteuerung kombinieren. Ein gängiger Ansatz besteht darin, Modelle an verkörperten Denkaufgaben im Zusammenhang mit der Robotersteuerung mittels Supervised Fine-Tuning (SFT) zu trainieren. Allerdings werden SFT-Datensätze oft heuristisch konstruiert und nicht explizit für die Verbesserung der Robotersteuerung optimiert. Darüber hinaus führt SFT häufig zu Problemen wie katastrophalem Vergessen und reduzierter Generalisierungsleistung. Um diese Einschränkungen zu überwinden, stellen wir Robot-R1 vor, ein neuartiges Framework, das Verstärkungslernen nutzt, um verkörpertes Denken speziell für die Robotersteuerung zu verbessern. Robot-R1 lernt, den nächsten Schlüsselpunktzustand vorherzusagen, der zur Aufgabenbewältigung erforderlich ist, basierend auf dem aktuellen Szenenbild und Umgebungsmetadaten, die aus Experten-Demonstrationen abgeleitet werden. Inspiriert vom DeepSeek-R1-Lernansatz, generiert Robot-R1 denkbasierte Antworten und verstärkt solche, die zu genaueren Vorhersagen führen. Unsere Experimente zeigen, dass mit Robot-R1 trainierte Modelle SFT-Methoden bei verkörperten Denkaufgaben übertreffen. Trotz nur 7B Parametern übertrifft Robot-R1 sogar GPT-4o bei Denkaufgaben im Zusammenhang mit der Steuerung von Low-Level-Aktionen, wie z. B. räumlichem und primitivem Bewegungsdenken.
English
Large Vision-Language Models (LVLMs) have recently shown great promise in advancing robotics by combining embodied reasoning with robot control. A common approach involves training on embodied reasoning tasks related to robot control using Supervised Fine-Tuning (SFT). However, SFT datasets are often heuristically constructed and not explicitly optimized for improving robot control. Furthermore, SFT often leads to issues such as catastrophic forgetting and reduced generalization performance. To address these limitations, we introduce Robot-R1, a novel framework that leverages reinforcement learning to enhance embodied reasoning specifically for robot control. Robot-R1 learns to predict the next keypoint state required for task completion, conditioned on the current scene image and environment metadata derived from expert demonstrations. Inspired by the DeepSeek-R1 learning approach, Robot-R1 samples reasoning-based responses and reinforces those that lead to more accurate predictions. Our experiments show that models trained with Robot-R1 outperform SFT methods on embodied reasoning tasks. Despite having only 7B parameters, Robot-R1 even surpasses GPT-4o on reasoning tasks related to low-level action control, such as spatial and primitive movement reasoning.
PDF252June 4, 2025