ChatPaper.aiChatPaper

DexGraspVLA: Un Framework Visione-Linguaggio-Azione per la Presa Abile Generale

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping

February 28, 2025
Autori: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen
cs.AI

Abstract

La presa abile rimane un problema fondamentale ma impegnativo nella robotica. Un robot generico deve essere in grado di afferrare oggetti diversi in scenari arbitrari. Tuttavia, la ricerca esistente si basa tipicamente su assunzioni specifiche, come ambienti a singolo oggetto o limitati, portando a una generalizzazione ristretta. La nostra soluzione è DexGraspVLA, un framework gerarchico che utilizza un modello Visione-Linguaggio pre-addestrato come pianificatore di alto livello e apprende una politica basata sulla diffusione come controllore di azioni di basso livello. L'intuizione chiave risiede nella trasformazione iterativa di input linguistici e visivi diversi in rappresentazioni invarianti al dominio, dove l'apprendimento per imitazione può essere applicato in modo efficace grazie all'attenuazione dello spostamento di dominio. Ciò consente una robusta generalizzazione in un'ampia gamma di scenari del mondo reale. In particolare, il nostro metodo raggiunge un tasso di successo superiore al 90% in migliaia di combinazioni non viste di oggetti, illuminazione e sfondo in un ambiente "zero-shot". L'analisi empirica conferma ulteriormente la coerenza del comportamento interno del modello attraverso variazioni ambientali, convalidando così il nostro design e spiegando le sue prestazioni di generalizzazione. Speriamo che il nostro lavoro possa rappresentare un passo avanti verso il raggiungimento di una presa abile generale. La nostra demo e il codice sono disponibili su https://dexgraspvla.github.io/.
English
Dexterous grasping remains a fundamental yet challenging problem in robotics. A general-purpose robot must be capable of grasping diverse objects in arbitrary scenarios. However, existing research typically relies on specific assumptions, such as single-object settings or limited environments, leading to constrained generalization. Our solution is DexGraspVLA, a hierarchical framework that utilizes a pre-trained Vision-Language model as the high-level task planner and learns a diffusion-based policy as the low-level Action controller. The key insight lies in iteratively transforming diverse language and visual inputs into domain-invariant representations, where imitation learning can be effectively applied due to the alleviation of domain shift. Thus, it enables robust generalization across a wide range of real-world scenarios. Notably, our method achieves a 90+% success rate under thousands of unseen object, lighting, and background combinations in a ``zero-shot'' environment. Empirical analysis further confirms the consistency of internal model behavior across environmental variations, thereby validating our design and explaining its generalization performance. We hope our work can be a step forward in achieving general dexterous grasping. Our demo and code can be found at https://dexgraspvla.github.io/.

Summary

AI-Generated Summary

PDF92March 3, 2025