GR-RL: Alcançando Destreza e Precisão em Manipulação Robótica de Longo Prazo

Resumo

Apresentamos o GR-RL, uma estrutura de aprendizagem robótica que transforma uma política generalista visão-linguagem-ação (VLA) em um especialista altamente capacitado para manipulação dextrosa de longo horizonte. A suposição da otimalidade das demonstrações humanas é central para as políticas VLA existentes. No entanto, afirmamos que tarefas de manipulação altamente dextrosas e precisas, as demonstrações humanas são ruidosas e subótimas. O GR-RL propõe um *pipeline* de treinamento multiestágio que filtra, aumenta e reforça as demonstrações por meio de aprendizagem por reforço. Primeiro, o GR-RL aprende um indicador de progresso da tarefa condicionado por visão e linguagem, filtra as trajetórias de demonstração e mantém apenas as transições que contribuem positivamente para o progresso. Especificamente, mostramos que, ao aplicar diretamente o RL offline com recompensa esparsa, os valores-Q resultantes podem ser tratados como uma função de progresso robusta. Em seguida, introduzimos uma ampliação por simetria morfológica que melhora significativamente a generalização e o desempenho do GR-RL. Por fim, para melhor alinhar a política VLA com seus comportamentos de implantação para controle de alta precisão, realizamos RL online aprendendo um preditor de ruído no espaço latente. Com este *pipeline*, o GR-RL é, até onde sabemos, a primeira política baseada em aprendizagem capaz de amarrar um cadarço de sapato de forma autônoma, passando-o por múltiplas ilhoses com uma taxa de sucesso de 83,3% – uma tarefa que exige raciocínio de longo horizonte, precisão de nível milimétrico e interação complacente com corpos moles. Esperamos que o GR-RL represente um passo em direção à capacitação de modelos de base robóticos generalistas para se especializarem em especialistas confiáveis para o mundo real.

English

We present GR-RL, a robotic learning framework that turns a generalist vision-language-action (VLA) policy into a highly capable specialist for long-horizon dexterous manipulation. Assuming the optimality of human demonstrations is core to existing VLA policies. However, we claim that in highly dexterous and precise manipulation tasks, human demonstrations are noisy and suboptimal. GR-RL proposes a multi-stage training pipeline that filters, augments, and reinforces the demonstrations by reinforcement learning. First, GR-RL learns a vision-language-conditioned task progress, filters the demonstration trajectories, and only keeps the transitions that contribute positively to the progress. Specifically, we show that by directly applying offline RL with sparse reward, the resulting Q-values can be treated as a robust progress function. Next, we introduce morphological symmetry augmentation that greatly improves the generalization and performance of GR-RL. Lastly, to better align the VLA policy with its deployment behaviors for high-precision control, we perform online RL by learning a latent space noise predictor. With this pipeline, GR-RL is, to our knowledge, the first learning-based policy that can autonomously lace up a shoe by threading shoelaces through multiple eyelets with an 83.3% success rate, a task requiring long-horizon reasoning, millimeter-level precision, and compliant soft-body interaction. We hope GR-RL provides a step toward enabling generalist robot foundations models to specialize into reliable real-world experts.

GR-RL: Alcançando Destreza e Precisão em Manipulação Robótica de Longo Prazo

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

Resumo

Support