ChatPaper.aiChatPaper

GR-RL: Повышение ловкости и точности при длительных манипуляциях роботов

GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

December 1, 2025
Авторы: Yunfei Li, Xiao Ma, Jiafeng Xu, Yu Cui, Zhongren Cui, Zhigang Han, Liqun Huang, Tao Kong, Yuxiao Liu, Hao Niu, Wanli Peng, Jingchao Qiao, Zeyu Ren, Haixin Shi, Zhi Su, Jiawen Tian, Yuyang Xiao, Shenyu Zhang, Liwei Zheng, Hang Li, Yonghui Wu
cs.AI

Аннотация

Мы представляем GR-RL — фреймворк роботизированного обучения, который преобразует универсальную политику «зрение-язык-действие» (VLA) в высокоэффективного специалиста для манипуляций, требующих длительных горизонтов планирования и ловкости. В основе существующих политик VLA лежит предположение об оптимальности демонстраций, выполняемых человеком. Однако мы утверждаем, что в задачах высокоточных и требующих ловкости манипуляций человеческие демонстрации являются зашумленными и субоптимальными. GR-RL предлагает многоэтапный конвейер обучения, который фильтрует, дополняет и усиливает демонстрации с помощью обучения с подкреплением. Сначала GR-RL изучает показатель прогресса задачи, обусловленный зрением и языком, фильтрует траектории демонстраций и оставляет только те переходы, которые положительно влияют на прогресс. В частности, мы показываем, что прямое применение офлайн-обучения с подкреплением с разреженным вознаграждением позволяет использовать получаемые Q-значения в качестве надежной функции прогресса. Далее мы вводим аугментацию на основе морфологической симметрии, которая значительно повышает обобщающую способность и производительность GR-RL. Наконец, для лучшего согласования политики VLA с её реальным поведением при развертывании для высокоточного управления мы выполняем онлайн-обучение с подкреплением, обучая предсказателя шума в латентном пространстве. Благодаря этому конвейеру GR-RL, насколько нам известно, является первой политикой на основе обучения, способной автономно зашнуровывать обувь, продевая шнурки через несколько люверсов с успешностью 83,3% — задачей, требующей длительного рассуждения, точности на уровне миллиметров и взаимодействия с податливыми мягкими телами. Мы надеемся, что GR-RL станет шагом на пути к тому, чтобы универсальные базовые модели роботов могли специализироваться в надежных экспертов для реального мира.
English
We present GR-RL, a robotic learning framework that turns a generalist vision-language-action (VLA) policy into a highly capable specialist for long-horizon dexterous manipulation. Assuming the optimality of human demonstrations is core to existing VLA policies. However, we claim that in highly dexterous and precise manipulation tasks, human demonstrations are noisy and suboptimal. GR-RL proposes a multi-stage training pipeline that filters, augments, and reinforces the demonstrations by reinforcement learning. First, GR-RL learns a vision-language-conditioned task progress, filters the demonstration trajectories, and only keeps the transitions that contribute positively to the progress. Specifically, we show that by directly applying offline RL with sparse reward, the resulting Q-values can be treated as a robust progress function. Next, we introduce morphological symmetry augmentation that greatly improves the generalization and performance of GR-RL. Lastly, to better align the VLA policy with its deployment behaviors for high-precision control, we perform online RL by learning a latent space noise predictor. With this pipeline, GR-RL is, to our knowledge, the first learning-based policy that can autonomously lace up a shoe by threading shoelaces through multiple eyelets with an 83.3% success rate, a task requiring long-horizon reasoning, millimeter-level precision, and compliant soft-body interaction. We hope GR-RL provides a step toward enabling generalist robot foundations models to specialize into reliable real-world experts.
PDF171December 3, 2025