Relatório Técnico GR-Dexter

Resumo

Os modelos visão-linguagem-ação (VLA) permitiram a manipulação robótica de longo horizonte condicionada por linguagem, mas a maioria dos sistemas existentes limita-se a garras. Escalar políticas VLA para robôs bimanuais com mãos destras de alto grau de liberdade (GdL) permanece um desafio devido ao espaço de ação expandido, oclusões frequentes mão-objeto e o custo da coleta de dados em robôs reais. Apresentamos o GR-Dexter, uma estrutura holística de hardware-modelo-dados para manipulação generalista baseada em VLA em um robô bimanual com mãos destras. Nossa abordagem combina o projeto de uma mão robótica compacta de 21 GdL, um sistema intuitivo de teleoperação bimanual para coleta de dados em robô real e uma receita de treinamento que aproveita trajetórias robóticas teleoperadas juntamente com conjuntos de dados de visão-linguagem em larga escala e dados cuidadosamente selecionados de embodimento cruzado. Em avaliações no mundo real abrangendo manipulação cotidiana de longo horizonte e pegar-e-colocar generalizável, o GR-Dexter alcança forte desempenho em domínio e maior robustez a objetos e instruções não vistas. Esperamos que o GR-Dexter sirva como um passo prático em direção à manipulação robótica generalista com mãos destras.

English

Vision-language-action (VLA) models have enabled language-conditioned, long-horizon robot manipulation, but most existing systems are limited to grippers. Scaling VLA policies to bimanual robots with high degree-of-freedom (DoF) dexterous hands remains challenging due to the expanded action space, frequent hand-object occlusions, and the cost of collecting real-robot data. We present GR-Dexter, a holistic hardware-model-data framework for VLA-based generalist manipulation on a bimanual dexterous-hand robot. Our approach combines the design of a compact 21-DoF robotic hand, an intuitive bimanual teleoperation system for real-robot data collection, and a training recipe that leverages teleoperated robot trajectories together with large-scale vision-language and carefully curated cross-embodiment datasets. Across real-world evaluations spanning long-horizon everyday manipulation and generalizable pick-and-place, GR-Dexter achieves strong in-domain performance and improved robustness to unseen objects and unseen instructions. We hope GR-Dexter serves as a practical step toward generalist dexterous-hand robotic manipulation.

Relatório Técnico GR-Dexter

GR-Dexter Technical Report

Resumo

Support