DexGraspVLA: Um Framework Visão-Linguagem-Ação para a Manipulação Destra Generalizada
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
February 28, 2025
Autores: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen
cs.AI
Resumo
A preensão hábil continua sendo um problema fundamental, mas desafiador, na robótica. Um robô de propósito geral deve ser capaz de agarrar diversos objetos em cenários arbitrários. No entanto, as pesquisas existentes geralmente dependem de suposições específicas, como configurações de único objeto ou ambientes limitados, resultando em generalização restrita. Nossa solução é o DexGraspVLA, uma estrutura hierárquica que utiliza um modelo de Visão-Linguagem pré-treinado como planejador de tarefas de alto nível e aprende uma política baseada em difusão como controlador de ações de baixo nível. A ideia central reside na transformação iterativa de diversas entradas de linguagem e visuais em representações invariantes ao domínio, onde o aprendizado por imitação pode ser aplicado de forma eficaz devido à mitigação da mudança de domínio. Assim, isso permite uma generalização robusta em uma ampla gama de cenários do mundo real. Notavelmente, nosso método alcança uma taxa de sucesso superior a 90% em milhares de combinações não vistas de objetos, iluminação e fundo em um ambiente "zero-shot". A análise empírica confirma ainda a consistência do comportamento interno do modelo em variações ambientais, validando nosso design e explicando seu desempenho de generalização. Esperamos que nosso trabalho possa ser um passo adiante na conquista da preensão hábil geral. Nossa demonstração e código podem ser encontrados em https://dexgraspvla.github.io/.
English
Dexterous grasping remains a fundamental yet challenging problem in robotics.
A general-purpose robot must be capable of grasping diverse objects in
arbitrary scenarios. However, existing research typically relies on specific
assumptions, such as single-object settings or limited environments, leading to
constrained generalization. Our solution is DexGraspVLA, a hierarchical
framework that utilizes a pre-trained Vision-Language model as the high-level
task planner and learns a diffusion-based policy as the low-level Action
controller. The key insight lies in iteratively transforming diverse language
and visual inputs into domain-invariant representations, where imitation
learning can be effectively applied due to the alleviation of domain shift.
Thus, it enables robust generalization across a wide range of real-world
scenarios. Notably, our method achieves a 90+% success rate under thousands of
unseen object, lighting, and background combinations in a ``zero-shot''
environment. Empirical analysis further confirms the consistency of internal
model behavior across environmental variations, thereby validating our design
and explaining its generalization performance. We hope our work can be a step
forward in achieving general dexterous grasping. Our demo and code can be found
at https://dexgraspvla.github.io/.Summary
AI-Generated Summary