DexGraspVLA: Een Visie-Taal-Actie Framework voor Algemeen Behendig Grijpen
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping
February 28, 2025
Auteurs: Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Yitao Liang, Yaodong Yang, Yuanpei Chen
cs.AI
Samenvatting
Behend grijpen blijft een fundamenteel maar uitdagend probleem in de robotica.
Een algemeen toepasbare robot moet in staat zijn om diverse objecten te grijpen
in willekeurige scenario's. Bestaand onderzoek vertrouwt echter meestal op
specifieke aannames, zoals omgevingen met één object of beperkte omgevingen, wat
leidt tot beperkte generalisatie. Onze oplossing is DexGraspVLA, een hiërarchisch
framework dat een vooraf getraind Vision-Language model gebruikt als de
hoog-niveau taakplanner en een op diffusie gebaseerd beleid leert als de
laag-niveau actiecontroller. De belangrijkste inzicht ligt in het iteratief
omzetten van diverse taal- en visuele invoer in domein-invariante representaties,
waarbij imitatieleren effectief kan worden toegepast vanwege de vermindering van
domeinverschuiving. Hierdoor wordt robuuste generalisatie mogelijk gemaakt over
een breed scala aan real-world scenario's. Opmerkelijk is dat onze methode een
succespercentage van meer dan 90% behaalt onder duizenden ongeziene combinaties
van objecten, belichting en achtergronden in een ``zero-shot'' omgeving.
Empirische analyse bevestigt verder de consistentie van intern modelgedrag over
verschillende omgevingsvariabelen, waardoor ons ontwerp wordt gevalideerd en de
generalisatieprestatie wordt verklaard. We hopen dat ons werk een stap vooruit
kan zijn in het bereiken van algemeen behend grijpen. Onze demo en code zijn te
vinden op https://dexgraspvla.github.io/.
English
Dexterous grasping remains a fundamental yet challenging problem in robotics.
A general-purpose robot must be capable of grasping diverse objects in
arbitrary scenarios. However, existing research typically relies on specific
assumptions, such as single-object settings or limited environments, leading to
constrained generalization. Our solution is DexGraspVLA, a hierarchical
framework that utilizes a pre-trained Vision-Language model as the high-level
task planner and learns a diffusion-based policy as the low-level Action
controller. The key insight lies in iteratively transforming diverse language
and visual inputs into domain-invariant representations, where imitation
learning can be effectively applied due to the alleviation of domain shift.
Thus, it enables robust generalization across a wide range of real-world
scenarios. Notably, our method achieves a 90+% success rate under thousands of
unseen object, lighting, and background combinations in a ``zero-shot''
environment. Empirical analysis further confirms the consistency of internal
model behavior across environmental variations, thereby validating our design
and explaining its generalization performance. We hope our work can be a step
forward in achieving general dexterous grasping. Our demo and code can be found
at https://dexgraspvla.github.io/.Summary
AI-Generated Summary