GR-Dexter Technischer Bericht
GR-Dexter Technical Report
December 30, 2025
papers.authors: Ruoshi Wen, Guangzeng Chen, Zhongren Cui, Min Du, Yang Gou, Zhigang Han, Liqun Huang, Mingyu Lei, Yunfei Li, Zhuohang Li, Wenlei Liu, Yuxiao Liu, Xiao Ma, Hao Niu, Yutao Ouyang, Zeyu Ren, Haixin Shi, Wei Xu, Haoxiang Zhang, Jiajun Zhang, Xiao Zhang, Liwei Zheng, Weiheng Zhong, Yifei Zhou, Zhengming Zhu, Hang Li
cs.AI
papers.abstract
Vision-Language-Action (VLA)-Modelle ermöglichen sprachgesteuerte, langfristige Roboter-Manipulation, doch die meisten existierenden Systeme sind auf Greifer beschränkt. Die Skalierung von VLA-Policies auf bimanuelle Roboter mit hochgradig freizügigen (DoF) geschickten Händen bleibt aufgrund des erweiterten Aktionsraums, häufiger Hand-Objekt-Okkulsionen und der Kosten für die Erfassung von Echt-Roboter-Daten eine Herausforderung. Wir stellen GR-Dexter vor, ein holistisches Hardware-Modell-Daten-Framework für VLA-basierte allgemeine Manipulation mit einem bimanuellen Roboter mit Geschicklichkeitshänden. Unser Ansatz kombiniert das Design einer kompakten 21-DoF-Roboterhand, eines intuitiven bimanuellen Teleoperationssystems zur Erfassung von Echt-Roboter-Daten und eines Trainingsverfahrens, das teleoperierte Roboter-Trajektorien zusammen mit groß angelegten Vision-Language- und sorgfältig kuratierten Cross-Embodiment-Datensätzen nutzt. In realen Evaluierungen, die langfristige alltägliche Manipulation und generalisierbares Pick-and-Place umfassen, erzielt GR-Dexter eine hohe In-Domain-Leistung und verbesserte Robustheit gegenüber ungesehenen Objekten und ungesehenen Anweisungen. Wir hoffen, dass GR-Dexter einen praktischen Schritt in Richtung allgemeiner Geschicklichkeitshand-Roboter-Manipulation darstellt.
English
Vision-language-action (VLA) models have enabled language-conditioned, long-horizon robot manipulation, but most existing systems are limited to grippers. Scaling VLA policies to bimanual robots with high degree-of-freedom (DoF) dexterous hands remains challenging due to the expanded action space, frequent hand-object occlusions, and the cost of collecting real-robot data. We present GR-Dexter, a holistic hardware-model-data framework for VLA-based generalist manipulation on a bimanual dexterous-hand robot. Our approach combines the design of a compact 21-DoF robotic hand, an intuitive bimanual teleoperation system for real-robot data collection, and a training recipe that leverages teleoperated robot trajectories together with large-scale vision-language and carefully curated cross-embodiment datasets. Across real-world evaluations spanning long-horizon everyday manipulation and generalizable pick-and-place, GR-Dexter achieves strong in-domain performance and improved robustness to unseen objects and unseen instructions. We hope GR-Dexter serves as a practical step toward generalist dexterous-hand robotic manipulation.