GR-RL: Geschickte und präzise robotische Manipulation für langfristige Aufgaben
GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
December 1, 2025
papers.authors: Yunfei Li, Xiao Ma, Jiafeng Xu, Yu Cui, Zhongren Cui, Zhigang Han, Liqun Huang, Tao Kong, Yuxiao Liu, Hao Niu, Wanli Peng, Jingchao Qiao, Zeyu Ren, Haixin Shi, Zhi Su, Jiawen Tian, Yuyang Xiao, Shenyu Zhang, Liwei Zheng, Hang Li, Yonghui Wu
cs.AI
papers.abstract
Wir stellen GR-RL vor, ein Robotik-Lernframework, das eine generalistische Vision-Language-Action (VLA)-Policy in einen hochleistungsfähigen Spezialisten für langfristige, geschickte Manipulation verwandelt. Die Annahme der Optimalität menschlicher Demonstrationen ist grundlegend für bestehende VLA-Policies. Wir behaupten jedoch, dass bei hochgradig geschickten und präzisen Manipulationsaufgaben menschliche Demonstrationen verrauscht und suboptimal sind. GR-RL schlägt eine mehrstufige Trainingspipeline vor, die die Demonstrationen durch Reinforcement Learning filtert, augmentiert und verstärkt. Zuerst lernt GR-RL einen visio-sprachlich konditionierten Aufgabenfortschritt, filtert die Demonstrations-Trajektorien und behält nur die Übergänge bei, die positiv zum Fortschritt beitragen. Insbesondere zeigen wir, dass durch die direkte Anwendung von Offline-Reinforcement-Learning mit spärlicher Belohnung die resultierenden Q-Werte als robuste Fortschrittsfunktion behandelt werden können. Als nächstes führen wir eine morphologische Symmetrie-Augmentierung ein, die die Generalisierungsfähigkeit und Leistung von GR-RL erheblich verbessert. Schließlich führen wir Online-Reinforcement-Learning durch, indem wir einen Rauschprädiktor im latenten Raum erlernen, um die VLA-Policy besser mit ihrem Einsatzverhalten für hochpräzise Steuerung in Einklang zu bringen. Mit dieser Pipeline ist GR-RL unseres Wissens die erste lernbasierte Policy, die autonom einen Schuhen binden kann, indem sie Schnürsenkel durch mehrere Ösen fädelt – mit einer Erfolgsquote von 83,3 %. Diese Aufgabe erfordert langfristige Planung, Millimeter-Präzision und nachgiebige Weichkörper-Interaktion. Wir hoffen, dass GR-RL einen Schritt dahin ermöglicht, generalistische Robotik-Foundation-Models zu zuverlässigen Experten in der realen Welt zu spezialisieren.
English
We present GR-RL, a robotic learning framework that turns a generalist vision-language-action (VLA) policy into a highly capable specialist for long-horizon dexterous manipulation. Assuming the optimality of human demonstrations is core to existing VLA policies. However, we claim that in highly dexterous and precise manipulation tasks, human demonstrations are noisy and suboptimal. GR-RL proposes a multi-stage training pipeline that filters, augments, and reinforces the demonstrations by reinforcement learning. First, GR-RL learns a vision-language-conditioned task progress, filters the demonstration trajectories, and only keeps the transitions that contribute positively to the progress. Specifically, we show that by directly applying offline RL with sparse reward, the resulting Q-values can be treated as a robust progress function. Next, we introduce morphological symmetry augmentation that greatly improves the generalization and performance of GR-RL. Lastly, to better align the VLA policy with its deployment behaviors for high-precision control, we perform online RL by learning a latent space noise predictor. With this pipeline, GR-RL is, to our knowledge, the first learning-based policy that can autonomously lace up a shoe by threading shoelaces through multiple eyelets with an 83.3% success rate, a task requiring long-horizon reasoning, millimeter-level precision, and compliant soft-body interaction. We hope GR-RL provides a step toward enabling generalist robot foundations models to specialize into reliable real-world experts.