DexGraspVLA: 汎用巧緻把持に向けた視覚-言語-行動フレームワーク
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
February 28, 2025
著者: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen
cs.AI
要旨
器用な把持は、ロボット工学における基本的でありながら依然として困難な課題である。汎用ロボットは、任意のシナリオにおいて多様な物体を把持できる能力を備えている必要がある。しかし、既存の研究は通常、単一物体の設定や限られた環境といった特定の仮定に依存しており、その結果、一般化が制約されている。我々の解決策はDexGraspVLAである。これは、事前学習済みのVision-Languageモデルを高レベルのタスクプランナーとして利用し、拡散ベースのポリシーを低レベルのアクションコントローラーとして学習する階層的フレームワークである。重要な洞察は、多様な言語および視覚入力をドメイン不変な表現に反復的に変換することにあり、これによりドメインシフトが緩和されるため、模倣学習を効果的に適用できる。これにより、広範な現実世界のシナリオにわたる堅牢な一般化が可能となる。特に、我々の手法は「ゼロショット」環境において、数千の未見の物体、照明、背景の組み合わせ下で90%以上の成功率を達成している。実証分析により、環境変化にわたる内部モデル動作の一貫性がさらに確認され、我々の設計が検証され、その一般化性能が説明されている。我々の研究が、一般的な器用な把持の実現に向けた一歩となることを期待している。デモとコードはhttps://dexgraspvla.github.io/で公開されている。
English
Dexterous grasping remains a fundamental yet challenging problem in robotics.
A general-purpose robot must be capable of grasping diverse objects in
arbitrary scenarios. However, existing research typically relies on specific
assumptions, such as single-object settings or limited environments, leading to
constrained generalization. Our solution is DexGraspVLA, a hierarchical
framework that utilizes a pre-trained Vision-Language model as the high-level
task planner and learns a diffusion-based policy as the low-level Action
controller. The key insight lies in iteratively transforming diverse language
and visual inputs into domain-invariant representations, where imitation
learning can be effectively applied due to the alleviation of domain shift.
Thus, it enables robust generalization across a wide range of real-world
scenarios. Notably, our method achieves a 90+% success rate under thousands of
unseen object, lighting, and background combinations in a ``zero-shot''
environment. Empirical analysis further confirms the consistency of internal
model behavior across environmental variations, thereby validating our design
and explaining its generalization performance. We hope our work can be a step
forward in achieving general dexterous grasping. Our demo and code can be found
at https://dexgraspvla.github.io/.Summary
AI-Generated Summary