Informe Técnico GR-Dexter
GR-Dexter Technical Report
December 30, 2025
Autores: Ruoshi Wen, Guangzeng Chen, Zhongren Cui, Min Du, Yang Gou, Zhigang Han, Liqun Huang, Mingyu Lei, Yunfei Li, Zhuohang Li, Wenlei Liu, Yuxiao Liu, Xiao Ma, Hao Niu, Yutao Ouyang, Zeyu Ren, Haixin Shi, Wei Xu, Haoxiang Zhang, Jiajun Zhang, Xiao Zhang, Liwei Zheng, Weiheng Zhong, Yifei Zhou, Zhengming Zhu, Hang Li
cs.AI
Resumen
Los modelos visión-lenguaje-acción (VLA) han permitido la manipulación robótica de largo horizonte condicionada por lenguaje, pero la mayoría de los sistemas existentes se limitan a pinzas. Escalar las políticas VLA a robots bimanuales con manos diestras de alto grado de libertad (GDL) sigue siendo un desafío debido al espacio de acción expandido, las frecuentes oclusiones mano-objeto y el costo de recolectar datos de robots reales. Presentamos GR-Dexter, un marco integral de hardware-modelo-datos para la manipulación generalista basada en VLA en un robot bimanual con manos diestras. Nuestro enfoque combina el diseño de una mano robótica compacta de 21 GDL, un sistema intuitivo de teleoperación bimanual para la recolección de datos de robot real, y una metodología de entrenamiento que aprovecha las trayectorias de robot teleoperadas junto con conjuntos de datos de visión-lenguaje a gran escala y conjuntos de datos de embodimiento cruzado cuidadosamente seleccionados. En evaluaciones del mundo real que abarcan la manipulación cotidiana de largo horizonte y la tarea de recoger y colocar generalizable, GR-Dexter logra un sólido rendimiento dentro del dominio y una mayor robustez ante objetos no vistos e instrucciones no vistas. Esperamos que GR-Dexter sirva como un paso práctico hacia la manipulación robótica generalista con manos diestras.
English
Vision-language-action (VLA) models have enabled language-conditioned, long-horizon robot manipulation, but most existing systems are limited to grippers. Scaling VLA policies to bimanual robots with high degree-of-freedom (DoF) dexterous hands remains challenging due to the expanded action space, frequent hand-object occlusions, and the cost of collecting real-robot data. We present GR-Dexter, a holistic hardware-model-data framework for VLA-based generalist manipulation on a bimanual dexterous-hand robot. Our approach combines the design of a compact 21-DoF robotic hand, an intuitive bimanual teleoperation system for real-robot data collection, and a training recipe that leverages teleoperated robot trajectories together with large-scale vision-language and carefully curated cross-embodiment datasets. Across real-world evaluations spanning long-horizon everyday manipulation and generalizable pick-and-place, GR-Dexter achieves strong in-domain performance and improved robustness to unseen objects and unseen instructions. We hope GR-Dexter serves as a practical step toward generalist dexterous-hand robotic manipulation.