GR-RL: Naar Behendige en Precise Lange-Termijn Robotmanipulatie
GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
December 1, 2025
Auteurs: Yunfei Li, Xiao Ma, Jiafeng Xu, Yu Cui, Zhongren Cui, Zhigang Han, Liqun Huang, Tao Kong, Yuxiao Liu, Hao Niu, Wanli Peng, Jingchao Qiao, Zeyu Ren, Haixin Shi, Zhi Su, Jiawen Tian, Yuyang Xiao, Shenyu Zhang, Liwei Zheng, Hang Li, Yonghui Wu
cs.AI
Samenvatting
Wij presenteren GR-RL, een robotica-leerkader dat een algemene visie-taal-actie (VLA)-policy omvormt tot een hoogwaardige specialist voor langetermijn, behendige manipulatie. De veronderstelling van de optimaliteit van menselijke demonstraties ligt ten grondslag aan bestaande VLA-policies. Wij stellen echter dat bij zeer behendige en precieze manipulatietaken menselijke demonstraties ruis bevatten en suboptimaal zijn. GR-RL introduceert een meerfasig trainingsproces dat de demonstraties filtert, uitbreidt en versterkt door middel van reinforcement learning. Ten eerste leert GR-RL een visie-taal-geconditioneerde taakvoortgang, filtert de demonstratietrajecten en behoudt alleen de overgangen die positief bijdragen aan de voortgang. Concreet tonen we aan dat door offline RL met een schaarse beloning direct toe te passen, de resulterende Q-waarden kunnen worden beschouwd als een robuuste voortgangsfunctie. Vervolgens introduceren we morfologische symmetrie-augmentatie, wat de generalisatie en prestaties van GR-RL aanzienlijk verbetert. Ten slotte voeren we online RL uit door een latentieruimte-ruisvoorspeller te leren, om de VLA-policy beter af te stemmen op het daadwerkelijke gedrag bij uitvoering voor hoogprecisiecontrole. Met deze pijplijn is GR-RL, voor zover wij weten, het eerste op leren gebaseerde policy-systeem dat autonoom een veter kan strikken door deze door meerdere veterogen te rijgen met een slagingspercentage van 83,3%. Deze taak vereist langetermijnredenering, millimeterprecisie en compliant zachte-lichaamsinteractie. Wij hopen dat GR-RL een stap vormt naar het specialiseren van algemene robot-foundation-modellen tot betrouwbare experts in de praktijk.
English
We present GR-RL, a robotic learning framework that turns a generalist vision-language-action (VLA) policy into a highly capable specialist for long-horizon dexterous manipulation. Assuming the optimality of human demonstrations is core to existing VLA policies. However, we claim that in highly dexterous and precise manipulation tasks, human demonstrations are noisy and suboptimal. GR-RL proposes a multi-stage training pipeline that filters, augments, and reinforces the demonstrations by reinforcement learning. First, GR-RL learns a vision-language-conditioned task progress, filters the demonstration trajectories, and only keeps the transitions that contribute positively to the progress. Specifically, we show that by directly applying offline RL with sparse reward, the resulting Q-values can be treated as a robust progress function. Next, we introduce morphological symmetry augmentation that greatly improves the generalization and performance of GR-RL. Lastly, to better align the VLA policy with its deployment behaviors for high-precision control, we perform online RL by learning a latent space noise predictor. With this pipeline, GR-RL is, to our knowledge, the first learning-based policy that can autonomously lace up a shoe by threading shoelaces through multiple eyelets with an 83.3% success rate, a task requiring long-horizon reasoning, millimeter-level precision, and compliant soft-body interaction. We hope GR-RL provides a step toward enabling generalist robot foundations models to specialize into reliable real-world experts.