GR-Dexter技術報告書
GR-Dexter Technical Report
December 30, 2025
著者: Ruoshi Wen, Guangzeng Chen, Zhongren Cui, Min Du, Yang Gou, Zhigang Han, Liqun Huang, Mingyu Lei, Yunfei Li, Zhuohang Li, Wenlei Liu, Yuxiao Liu, Xiao Ma, Hao Niu, Yutao Ouyang, Zeyu Ren, Haixin Shi, Wei Xu, Haoxiang Zhang, Jiajun Zhang, Xiao Zhang, Liwei Zheng, Weiheng Zhong, Yifei Zhou, Zhengming Zhu, Hang Li
cs.AI
要旨
視覚言語動作(VLA)モデルは言語条件付きの長期的ロボット操作を実現してきたが、既存システムの多くはグリッパーに限定されている。高自由度な五指ロボットハンドを備えた両腕ロボットへのVLAポリシーの拡張は、動作空間の拡大、頻繁なハンドと対象物のオクルージョン、実機データ収集のコストといった課題により困難が伴う。本論文では両腕五指ロボットにおけるVLAベースの汎用操作のための統合的ハードウェア・モデル・データフレームワーク「GR-Dexter」を提案する。本アプローチでは、コンパクトな21自由度ロボットハンドの設計、実機データ収集のための直感的な両腕遠隔操作システム、遠隔操作によるロボット軌道データと大規模視覚言語データセット、厳選されたクロスエンボディメントデータセットを活用した学習手法を組み合わせている。日常的な長期的操作と一般化可能なピックアンドプレースを含む実世界評価において、GR-Dexterはドメイン内で高い性能を発揮し、未見の物体や未見の指示に対するロバスト性の向上を実現した。GR-Dexterが汎用五指ロボット操作に向けた実践的な一歩となることを期待する。
English
Vision-language-action (VLA) models have enabled language-conditioned, long-horizon robot manipulation, but most existing systems are limited to grippers. Scaling VLA policies to bimanual robots with high degree-of-freedom (DoF) dexterous hands remains challenging due to the expanded action space, frequent hand-object occlusions, and the cost of collecting real-robot data. We present GR-Dexter, a holistic hardware-model-data framework for VLA-based generalist manipulation on a bimanual dexterous-hand robot. Our approach combines the design of a compact 21-DoF robotic hand, an intuitive bimanual teleoperation system for real-robot data collection, and a training recipe that leverages teleoperated robot trajectories together with large-scale vision-language and carefully curated cross-embodiment datasets. Across real-world evaluations spanning long-horizon everyday manipulation and generalizable pick-and-place, GR-Dexter achieves strong in-domain performance and improved robustness to unseen objects and unseen instructions. We hope GR-Dexter serves as a practical step toward generalist dexterous-hand robotic manipulation.