Rapporto Tecnico GR-Dexter

Abstract

I modelli visione-linguaggio-azione (VLA) hanno reso possibile la manipolazione robotica a lungo orizzonte condizionata dal linguaggio, ma la maggior parte dei sistemi esistenti è limitata a pinze. Scalare le politiche VLA per robot bimanuali dotati di mani dattili ad alto grado di libertà (DoF) rimane una sfida a causa dello spazio d'azione ampliato, delle frequenti occlusioni mano-oggetto e del costo associato alla raccolta di dati su robot reali. Presentiamo GR-Dexter, un framework hardware-modello-dati olistico per la manipolazione generalista basata su VLA su un robot bimanuale con mani dattili. Il nostro approccio combina la progettazione di una mano robotica compatta a 21 DoF, un sistema di teletrasporto bimanuale intuitivo per la raccolta di dati su robot reali e una metodologia di addestramento che sfrutta le traiettorie robotiche teleoperate insieme a dataset su larga scala di visione e linguaggio e dataset cross-embodiment accuratamente curati. In valutazioni nel mondo reale che abbracciano la manipolazione quotidiana a lungo orizzonte e il pick-and-place generalizzabile, GR-Dexter raggiunge prestazioni solide in dominio e una maggiore robustezza rispetto a oggetti non visti e istruzioni non viste. Speriamo che GR-Dexter rappresenti un passo pratico verso la manipolazione robotica generalista con mani dattili.

English

Vision-language-action (VLA) models have enabled language-conditioned, long-horizon robot manipulation, but most existing systems are limited to grippers. Scaling VLA policies to bimanual robots with high degree-of-freedom (DoF) dexterous hands remains challenging due to the expanded action space, frequent hand-object occlusions, and the cost of collecting real-robot data. We present GR-Dexter, a holistic hardware-model-data framework for VLA-based generalist manipulation on a bimanual dexterous-hand robot. Our approach combines the design of a compact 21-DoF robotic hand, an intuitive bimanual teleoperation system for real-robot data collection, and a training recipe that leverages teleoperated robot trajectories together with large-scale vision-language and carefully curated cross-embodiment datasets. Across real-world evaluations spanning long-horizon everyday manipulation and generalizable pick-and-place, GR-Dexter achieves strong in-domain performance and improved robustness to unseen objects and unseen instructions. We hope GR-Dexter serves as a practical step toward generalist dexterous-hand robotic manipulation.

Rapporto Tecnico GR-Dexter

GR-Dexter Technical Report

Abstract

Support