CARP : Apprentissage de la politique visuomotrice via une prédiction autorégressive grossière à fine granularité
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
December 9, 2024
Auteurs: Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang
cs.AI
Résumé
Dans l'apprentissage des politiques visuomotrices robotiques, les modèles basés sur la diffusion ont connu un succès significatif en améliorant la précision de la génération de trajectoires d'actions par rapport aux modèles autorégressifs traditionnels. Cependant, ils souffrent d'inefficacité en raison de multiples étapes de débruitage et d'une flexibilité limitée due à des contraintes complexes. Dans cet article, nous introduisons CARP (Coarse-to-Fine AutoRegressive Policy), un nouveau paradigme pour l'apprentissage des politiques visuomotrices qui redéfinit le processus de génération d'actions autorégressives comme une approche à échelle suivante, de grossier à fin. CARP découple la génération d'actions en deux étapes : d'abord, un autoencodeur d'actions apprend des représentations multi-échelles de l'ensemble de la séquence d'actions ; ensuite, un transformateur de style GPT affine la prédiction de séquence à travers un processus autorégressif de grossier à fin. Cette approche simple et intuitive produit des actions hautement précises et fluides, égalant voire surpassant les performances des politiques basées sur la diffusion tout en maintenant une efficacité comparable à celle des politiques autorégressives. Nous menons des évaluations approfondies dans des contextes divers, y compris des scénarios mono-tâche et multi-tâches sur des bancs d'essai de simulation basés sur l'état et l'image, ainsi que des tâches réelles. CARP atteint des taux de succès compétitifs, avec une amélioration allant jusqu'à 10 %, et offre une inférence 10 fois plus rapide par rapport aux politiques de pointe, établissant un paradigme performant, efficace et flexible pour la génération d'actions dans les tâches robotiques.
English
In robotic visuomotor policy learning, diffusion-based models have achieved
significant success in improving the accuracy of action trajectory generation
compared to traditional autoregressive models. However, they suffer from
inefficiency due to multiple denoising steps and limited flexibility from
complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive
Policy (CARP), a novel paradigm for visuomotor policy learning that redefines
the autoregressive action generation process as a coarse-to-fine, next-scale
approach. CARP decouples action generation into two stages: first, an action
autoencoder learns multi-scale representations of the entire action sequence;
then, a GPT-style transformer refines the sequence prediction through a
coarse-to-fine autoregressive process. This straightforward and intuitive
approach produces highly accurate and smooth actions, matching or even
surpassing the performance of diffusion-based policies while maintaining
efficiency on par with autoregressive policies. We conduct extensive
evaluations across diverse settings, including single-task and multi-task
scenarios on state-based and image-based simulation benchmarks, as well as
real-world tasks. CARP achieves competitive success rates, with up to a 10%
improvement, and delivers 10x faster inference compared to state-of-the-art
policies, establishing a high-performance, efficient, and flexible paradigm for
action generation in robotic tasks.Summary
AI-Generated Summary