DexGraspVLA: 일반적인 정밀 그리핑을 위한 비전-언어-행동 통합 프레임워크
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
February 28, 2025
저자: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen
cs.AI
초록
민첩한 그리핑은 로보틱스에서 여전히 근본적이면서도 도전적인 문제로 남아 있습니다. 범용 로봇은 다양한 물체를 임의의 시나리오에서 잡을 수 있는 능력을 갖추어야 합니다. 그러나 기존 연구는 일반적으로 단일 물체 설정이나 제한된 환경과 같은 특정 가정에 의존하여 제한된 일반화를 초래합니다. 우리의 솔루션은 DexGraspVLA로, 사전 훈련된 Vision-Language 모델을 상위 수준의 작업 계획자로 활용하고 확산 기반 정책을 하위 수준의 동작 제어기로 학습하는 계층적 프레임워크입니다. 핵심 통찰은 다양한 언어 및 시각적 입력을 도메인 불변 표현으로 반복적으로 변환하는 데 있으며, 이는 도메인 이동이 완화됨에 따라 모방 학습을 효과적으로 적용할 수 있게 합니다. 이를 통해 광범위한 실제 시나리오에서 강력한 일반화가 가능해집니다. 특히, 우리의 방법은 '제로샷' 환경에서 수천 가지의 보지 못한 물체, 조명, 배경 조합에서 90% 이상의 성공률을 달성합니다. 실증적 분석은 환경 변화에 따른 내부 모델 행동의 일관성을 추가로 확인하여 우리의 설계를 검증하고 일반화 성능을 설명합니다. 우리의 작업이 일반적인 민첩한 그리핑을 달성하는 데 한 걸음 나아갈 수 있기를 바랍니다. 데모와 코드는 https://dexgraspvla.github.io/에서 확인할 수 있습니다.
English
Dexterous grasping remains a fundamental yet challenging problem in robotics.
A general-purpose robot must be capable of grasping diverse objects in
arbitrary scenarios. However, existing research typically relies on specific
assumptions, such as single-object settings or limited environments, leading to
constrained generalization. Our solution is DexGraspVLA, a hierarchical
framework that utilizes a pre-trained Vision-Language model as the high-level
task planner and learns a diffusion-based policy as the low-level Action
controller. The key insight lies in iteratively transforming diverse language
and visual inputs into domain-invariant representations, where imitation
learning can be effectively applied due to the alleviation of domain shift.
Thus, it enables robust generalization across a wide range of real-world
scenarios. Notably, our method achieves a 90+% success rate under thousands of
unseen object, lighting, and background combinations in a ``zero-shot''
environment. Empirical analysis further confirms the consistency of internal
model behavior across environmental variations, thereby validating our design
and explaining its generalization performance. We hope our work can be a step
forward in achieving general dexterous grasping. Our demo and code can be found
at https://dexgraspvla.github.io/.Summary
AI-Generated Summary