ChatPaper.aiChatPaper

Технический отчет GR-Dexter

GR-Dexter Technical Report

December 30, 2025
Авторы: Ruoshi Wen, Guangzeng Chen, Zhongren Cui, Min Du, Yang Gou, Zhigang Han, Liqun Huang, Mingyu Lei, Yunfei Li, Zhuohang Li, Wenlei Liu, Yuxiao Liu, Xiao Ma, Hao Niu, Yutao Ouyang, Zeyu Ren, Haixin Shi, Wei Xu, Haoxiang Zhang, Jiajun Zhang, Xiao Zhang, Liwei Zheng, Weiheng Zhong, Yifei Zhou, Zhengming Zhu, Hang Li
cs.AI

Аннотация

Модели "зрение-язык-действие" (VLA) обеспечили манипуляции роботов на длительных горизонтах с условиями на языке, однако большинство существующих систем ограничены схватами. Масштабирование VLA-политик на двуручных роботов с высокоподвижными (степеней свободы, DoF) ловкими кистями остается сложной задачей из-за расширенного пространства действий, частых окклюзий "кисть-объект" и стоимости сбора данных с реального робота. Мы представляем GR-Dexter — целостную аппаратно-модельно-данную структуру для универсальных манипуляций на основе VLA на двуручном роботе с ловкими кистями. Наш подход сочетает проектирование компактной 21-DoF роботизированной кисти, интуитивную систему двуручной телеоперации для сбора данных с реального робота и рецепт обучения, использующий траектории телеуправляемого робота вместе с крупномасштабными визуально-языковыми и тщательно отобранными межэмбодиментными наборами данных. По результатам натурных оценок, охватывающих повседневные манипуляции на длительных горизонтах и обобщаемый "pick-and-place", GR-Dexter демонстрирует высокую производительность в домене и повышенную устойчивость к незнакомым объектам и инструкциям. Мы надеемся, что GR-Dexter станет практическим шагом на пути к универсальным манипуляциям роботов с ловкими кистями.
English
Vision-language-action (VLA) models have enabled language-conditioned, long-horizon robot manipulation, but most existing systems are limited to grippers. Scaling VLA policies to bimanual robots with high degree-of-freedom (DoF) dexterous hands remains challenging due to the expanded action space, frequent hand-object occlusions, and the cost of collecting real-robot data. We present GR-Dexter, a holistic hardware-model-data framework for VLA-based generalist manipulation on a bimanual dexterous-hand robot. Our approach combines the design of a compact 21-DoF robotic hand, an intuitive bimanual teleoperation system for real-robot data collection, and a training recipe that leverages teleoperated robot trajectories together with large-scale vision-language and carefully curated cross-embodiment datasets. Across real-world evaluations spanning long-horizon everyday manipulation and generalizable pick-and-place, GR-Dexter achieves strong in-domain performance and improved robustness to unseen objects and unseen instructions. We hope GR-Dexter serves as a practical step toward generalist dexterous-hand robotic manipulation.
PDF112January 2, 2026