GR-RL: Hacia la Destreza y Precisión en la Manipulación Robótica de Largo Horizonte
GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
December 1, 2025
Autores: Yunfei Li, Xiao Ma, Jiafeng Xu, Yu Cui, Zhongren Cui, Zhigang Han, Liqun Huang, Tao Kong, Yuxiao Liu, Hao Niu, Wanli Peng, Jingchao Qiao, Zeyu Ren, Haixin Shi, Zhi Su, Jiawen Tian, Yuyang Xiao, Shenyu Zhang, Liwei Zheng, Hang Li, Yonghui Wu
cs.AI
Resumen
Presentamos GR-RL, un marco de aprendizaje robótico que convierte una política generalista de visión-lenguaje-acción (VLA) en un especialista altamente capacitado para la manipulación diestra de largo horizonte. La suposición de la optimalidad de las demostraciones humanas es fundamental para las políticas VLA existentes. Sin embargo, afirmamos que en tareas de manipulación altamente diestras y precisas, las demostraciones humanas son ruidosas y subóptimas. GR-RL propone un pipeline de entrenamiento multietapa que filtra, aumenta y refuerza las demostraciones mediante aprendizaje por refuerzo. Primero, GR-RL aprende un indicador de progreso de la tarea condicionado por visión y lenguaje, filtra las trayectorias de demostración y solo conserva las transiciones que contribuyen positivamente al progreso. Específicamente, demostramos que al aplicar directamente RL offline con recompensa dispersa, los valores Q resultantes pueden tratarse como una función de progreso robusta. A continuación, introducimos una aumentación por simetría morfológica que mejora enormemente la generalización y el rendimiento de GR-RL. Por último, para alinear mejor la política VLA con sus comportamientos de despliegue para un control de alta precisión, realizamos RL online aprendiendo un predictor de ruido en el espacio latente. Con este pipeline, GR-RL es, hasta donde sabemos, la primera política basada en aprendizaje que puede atar un zapato de forma autónoma, pasando las agujetas por múltiples ojales con una tasa de éxito del 83,3%, una tarea que requiere razonamiento de largo horizonte, precisión a nivel milimétrico e interacción compliant con cuerpos blandos. Esperamos que GR-RL suponga un paso hacia la especialización de los modelos de base robóticos generalistas en expertos confiables para el mundo real.
English
We present GR-RL, a robotic learning framework that turns a generalist vision-language-action (VLA) policy into a highly capable specialist for long-horizon dexterous manipulation. Assuming the optimality of human demonstrations is core to existing VLA policies. However, we claim that in highly dexterous and precise manipulation tasks, human demonstrations are noisy and suboptimal. GR-RL proposes a multi-stage training pipeline that filters, augments, and reinforces the demonstrations by reinforcement learning. First, GR-RL learns a vision-language-conditioned task progress, filters the demonstration trajectories, and only keeps the transitions that contribute positively to the progress. Specifically, we show that by directly applying offline RL with sparse reward, the resulting Q-values can be treated as a robust progress function. Next, we introduce morphological symmetry augmentation that greatly improves the generalization and performance of GR-RL. Lastly, to better align the VLA policy with its deployment behaviors for high-precision control, we perform online RL by learning a latent space noise predictor. With this pipeline, GR-RL is, to our knowledge, the first learning-based policy that can autonomously lace up a shoe by threading shoelaces through multiple eyelets with an 83.3% success rate, a task requiring long-horizon reasoning, millimeter-level precision, and compliant soft-body interaction. We hope GR-RL provides a step toward enabling generalist robot foundations models to specialize into reliable real-world experts.