DexGraspVLA: Un Framework Visione-Linguaggio-Azione per la Presa Abile Generale
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
February 28, 2025
Autori: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen
cs.AI
Abstract
La presa abile rimane un problema fondamentale ma impegnativo nella robotica.
Un robot generico deve essere in grado di afferrare oggetti diversi in
scenari arbitrari. Tuttavia, la ricerca esistente si basa tipicamente su
assunzioni specifiche, come ambienti a singolo oggetto o limitati, portando a
una generalizzazione ristretta. La nostra soluzione è DexGraspVLA, un framework
gerarchico che utilizza un modello Visione-Linguaggio pre-addestrato come
pianificatore di alto livello e apprende una politica basata sulla diffusione
come controllore di azioni di basso livello. L'intuizione chiave risiede nella
trasformazione iterativa di input linguistici e visivi diversi in rappresentazioni
invarianti al dominio, dove l'apprendimento per imitazione può essere applicato
in modo efficace grazie all'attenuazione dello spostamento di dominio.
Ciò consente una robusta generalizzazione in un'ampia gamma di scenari del mondo
reale. In particolare, il nostro metodo raggiunge un tasso di successo superiore
al 90% in migliaia di combinazioni non viste di oggetti, illuminazione e sfondo
in un ambiente "zero-shot". L'analisi empirica conferma ulteriormente la coerenza
del comportamento interno del modello attraverso variazioni ambientali, convalidando
così il nostro design e spiegando le sue prestazioni di generalizzazione. Speriamo
che il nostro lavoro possa rappresentare un passo avanti verso il raggiungimento
di una presa abile generale. La nostra demo e il codice sono disponibili su
https://dexgraspvla.github.io/.
English
Dexterous grasping remains a fundamental yet challenging problem in robotics.
A general-purpose robot must be capable of grasping diverse objects in
arbitrary scenarios. However, existing research typically relies on specific
assumptions, such as single-object settings or limited environments, leading to
constrained generalization. Our solution is DexGraspVLA, a hierarchical
framework that utilizes a pre-trained Vision-Language model as the high-level
task planner and learns a diffusion-based policy as the low-level Action
controller. The key insight lies in iteratively transforming diverse language
and visual inputs into domain-invariant representations, where imitation
learning can be effectively applied due to the alleviation of domain shift.
Thus, it enables robust generalization across a wide range of real-world
scenarios. Notably, our method achieves a 90+% success rate under thousands of
unseen object, lighting, and background combinations in a ``zero-shot''
environment. Empirical analysis further confirms the consistency of internal
model behavior across environmental variations, thereby validating our design
and explaining its generalization performance. We hope our work can be a step
forward in achieving general dexterous grasping. Our demo and code can be found
at https://dexgraspvla.github.io/.Summary
AI-Generated Summary