Relatório Técnico GR-Dexter
GR-Dexter Technical Report
December 30, 2025
Autores: Ruoshi Wen, Guangzeng Chen, Zhongren Cui, Min Du, Yang Gou, Zhigang Han, Liqun Huang, Mingyu Lei, Yunfei Li, Zhuohang Li, Wenlei Liu, Yuxiao Liu, Xiao Ma, Hao Niu, Yutao Ouyang, Zeyu Ren, Haixin Shi, Wei Xu, Haoxiang Zhang, Jiajun Zhang, Xiao Zhang, Liwei Zheng, Weiheng Zhong, Yifei Zhou, Zhengming Zhu, Hang Li
cs.AI
Resumo
Os modelos visão-linguagem-ação (VLA) permitiram a manipulação robótica de longo horizonte condicionada por linguagem, mas a maioria dos sistemas existentes limita-se a garras. Escalar políticas VLA para robôs bimanuais com mãos destras de alto grau de liberdade (GdL) permanece um desafio devido ao espaço de ação expandido, oclusões frequentes mão-objeto e o custo da coleta de dados em robôs reais. Apresentamos o GR-Dexter, uma estrutura holística de hardware-modelo-dados para manipulação generalista baseada em VLA em um robô bimanual com mãos destras. Nossa abordagem combina o projeto de uma mão robótica compacta de 21 GdL, um sistema intuitivo de teleoperação bimanual para coleta de dados em robô real e uma receita de treinamento que aproveita trajetórias robóticas teleoperadas juntamente com conjuntos de dados de visão-linguagem em larga escala e dados cuidadosamente selecionados de embodimento cruzado. Em avaliações no mundo real abrangendo manipulação cotidiana de longo horizonte e pegar-e-colocar generalizável, o GR-Dexter alcança forte desempenho em domínio e maior robustez a objetos e instruções não vistas. Esperamos que o GR-Dexter sirva como um passo prático em direção à manipulação robótica generalista com mãos destras.
English
Vision-language-action (VLA) models have enabled language-conditioned, long-horizon robot manipulation, but most existing systems are limited to grippers. Scaling VLA policies to bimanual robots with high degree-of-freedom (DoF) dexterous hands remains challenging due to the expanded action space, frequent hand-object occlusions, and the cost of collecting real-robot data. We present GR-Dexter, a holistic hardware-model-data framework for VLA-based generalist manipulation on a bimanual dexterous-hand robot. Our approach combines the design of a compact 21-DoF robotic hand, an intuitive bimanual teleoperation system for real-robot data collection, and a training recipe that leverages teleoperated robot trajectories together with large-scale vision-language and carefully curated cross-embodiment datasets. Across real-world evaluations spanning long-horizon everyday manipulation and generalizable pick-and-place, GR-Dexter achieves strong in-domain performance and improved robustness to unseen objects and unseen instructions. We hope GR-Dexter serves as a practical step toward generalist dexterous-hand robotic manipulation.