GR-RL: Versatilità e Precisione per la Manipolazione Robotica a Lungo Orizzonte
GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
December 1, 2025
Autori: Yunfei Li, Xiao Ma, Jiafeng Xu, Yu Cui, Zhongren Cui, Zhigang Han, Liqun Huang, Tao Kong, Yuxiao Liu, Hao Niu, Wanli Peng, Jingchao Qiao, Zeyu Ren, Haixin Shi, Zhi Su, Jiawen Tian, Yuyang Xiao, Shenyu Zhang, Liwei Zheng, Hang Li, Yonghui Wu
cs.AI
Abstract
Presentiamo GR-RL, un framework di apprendimento robotico che trasforma una politica generalista visione-linguaggio-azione (VLA) in uno specialista altamente capace per la manipolazione destra di lungo orizzonte. L'assunzione dell'optimalità delle dimostrazioni umane è centrale nelle politiche VLA esistenti. Tuttavia, sosteniamo che in compiti di manipolazione altamente destri e precisi, le dimostrazioni umane sono rumorose e subottimali. GR-RL propone una pipeline di addestramento multi-stadio che filtra, aumenta e rinforza le dimostrazioni tramite apprendimento per rinforzo. In primo luogo, GR-RL apprende una funzione di avanzamento del task condizionata da visione e linguaggio, filtra le traiettorie dimostrative e conserva solo le transizioni che contribuiscono positivamente al progresso. Nello specifico, dimostriamo che applicando direttamente l'RL offline con ricompensa sparsa, i valori-Q risultanti possono essere trattati come una robusta funzione di progresso. Successivamente, introduciamo un aumento basato sulla simmetria morfologica che migliora notevolmente la generalizzazione e le prestazioni di GR-RL. Infine, per allineare meglio la politica VLA con i suoi comportamenti in fase di deploy per un controllo ad alta precisione, eseguiamo RL online apprendendo un predittore del rumore nello spazio latente. Con questa pipeline, GR-RL è, a nostra conoscenza, la prima politica basata su apprendimento in grado di allacciare autonomamente una scarpa facendo passare i lacci attraverso multiple asole con un tasso di successo dell'83.3%, un compito che richiede ragionamento a lungo orizzonte, precisione a livello millimetrico e interazione compliant con corpi soffici. Speriamo che GR-RL rappresenti un passo verso l'abilitazione di modelli di fondazione robotici generalisti a specializzarsi in esperti affidabili per il mondo reale.
English
We present GR-RL, a robotic learning framework that turns a generalist vision-language-action (VLA) policy into a highly capable specialist for long-horizon dexterous manipulation. Assuming the optimality of human demonstrations is core to existing VLA policies. However, we claim that in highly dexterous and precise manipulation tasks, human demonstrations are noisy and suboptimal. GR-RL proposes a multi-stage training pipeline that filters, augments, and reinforces the demonstrations by reinforcement learning. First, GR-RL learns a vision-language-conditioned task progress, filters the demonstration trajectories, and only keeps the transitions that contribute positively to the progress. Specifically, we show that by directly applying offline RL with sparse reward, the resulting Q-values can be treated as a robust progress function. Next, we introduce morphological symmetry augmentation that greatly improves the generalization and performance of GR-RL. Lastly, to better align the VLA policy with its deployment behaviors for high-precision control, we perform online RL by learning a latent space noise predictor. With this pipeline, GR-RL is, to our knowledge, the first learning-based policy that can autonomously lace up a shoe by threading shoelaces through multiple eyelets with an 83.3% success rate, a task requiring long-horizon reasoning, millimeter-level precision, and compliant soft-body interaction. We hope GR-RL provides a step toward enabling generalist robot foundations models to specialize into reliable real-world experts.