CARP: Visuomotorbeleidsleren via grof-naar-fijne autoregressieve voorspelling
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
December 9, 2024
Auteurs: Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang
cs.AI
Samenvatting
In het leren van robotische visuomotorbeleid hebben op diffusie gebaseerde modellen aanzienlijk succes geboekt bij het verbeteren van de nauwkeurigheid van actietrajectgeneratie in vergelijking met traditionele autoregressieve modellen. Ze kampen echter met inefficiëntie als gevolg van meerdere denoising-stappen en beperkte flexibiliteit door complexe beperkingen. In dit artikel introduceren we Coarse-to-Fine AutoRegressive Policy (CARP), een nieuw paradigma voor het leren van visuomotorbeleid dat het autoregressieve actiegeneratieproces opnieuw definieert als een grof-naar-fijn, volgende-schaalbenadering. CARP splitst actiegeneratie op in twee fasen: eerst leert een actie-auto-encoder multi-schaal representaties van de volledige actiesequentie; vervolgens verfijnt een transformer in GPT-stijl de sequentievoorspelling via een grof-naar-fijn autoregressief proces. Deze eenvoudige en intuïtieve benadering produceert zeer nauwkeurige en soepele acties, die overeenkomen met of zelfs de prestaties van op diffusie gebaseerde beleidslijnen overtreffen, terwijl de efficiëntie op het niveau blijft van autoregressieve beleidslijnen. We voeren uitgebreide evaluaties uit in diverse omgevingen, waaronder single-task en multi-task scenario's op op status gebaseerde en op afbeeldingen gebaseerde simulatiebenchmarks, evenals taken in de echte wereld. CARP behaalt concurrerende succespercentages, met een verbetering tot wel 10%, en levert 10x snellere inferentie in vergelijking met beleidslijnen van de laatste stand van zaken, waarbij een hoogwaardig, efficiënt en flexibel paradigma wordt vastgesteld voor actiegeneratie in robotische taken.
English
In robotic visuomotor policy learning, diffusion-based models have achieved
significant success in improving the accuracy of action trajectory generation
compared to traditional autoregressive models. However, they suffer from
inefficiency due to multiple denoising steps and limited flexibility from
complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive
Policy (CARP), a novel paradigm for visuomotor policy learning that redefines
the autoregressive action generation process as a coarse-to-fine, next-scale
approach. CARP decouples action generation into two stages: first, an action
autoencoder learns multi-scale representations of the entire action sequence;
then, a GPT-style transformer refines the sequence prediction through a
coarse-to-fine autoregressive process. This straightforward and intuitive
approach produces highly accurate and smooth actions, matching or even
surpassing the performance of diffusion-based policies while maintaining
efficiency on par with autoregressive policies. We conduct extensive
evaluations across diverse settings, including single-task and multi-task
scenarios on state-based and image-based simulation benchmarks, as well as
real-world tasks. CARP achieves competitive success rates, with up to a 10%
improvement, and delivers 10x faster inference compared to state-of-the-art
policies, establishing a high-performance, efficient, and flexible paradigm for
action generation in robotic tasks.