CARP: Aprendizaje de Políticas Visuomotoras a través de Predicción Autoregresiva de Grueso a Fino
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
December 9, 2024
Autores: Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang
cs.AI
Resumen
En el aprendizaje de políticas visuomotoras robóticas, los modelos basados en difusión han logrado un éxito significativo en mejorar la precisión de la generación de trayectorias de acción en comparación con los modelos autoregresivos tradicionales. Sin embargo, sufren de ineficiencia debido a múltiples pasos de desruido y una flexibilidad limitada debido a restricciones complejas. En este documento, presentamos Coarse-to-Fine AutoRegressive Policy (CARP), un nuevo paradigma para el aprendizaje de políticas visuomotoras que redefine el proceso de generación de acciones autoregresivas como un enfoque de escala siguiente de grueso a fino. CARP desacopla la generación de acciones en dos etapas: primero, un autoencoder de acción aprende representaciones multinivel de toda la secuencia de acciones; luego, un transformador estilo GPT refina la predicción de secuencia a través de un proceso autoregresivo de grueso a fino. Este enfoque directo e intuitivo produce acciones altamente precisas y suaves, igualando o incluso superando el rendimiento de las políticas basadas en difusión mientras mantiene una eficiencia comparable con las políticas autoregresivas. Realizamos evaluaciones extensas en diversos entornos, incluidos escenarios de una sola tarea y multitarea en bancos de pruebas de simulación basados en estados e imágenes, así como tareas del mundo real. CARP logra tasas de éxito competitivas, con hasta un 10% de mejora, y ofrece una inferencia 10 veces más rápida en comparación con las políticas de vanguardia, estableciendo un paradigma de alto rendimiento, eficiente y flexible para la generación de acciones en tareas robóticas.
English
In robotic visuomotor policy learning, diffusion-based models have achieved
significant success in improving the accuracy of action trajectory generation
compared to traditional autoregressive models. However, they suffer from
inefficiency due to multiple denoising steps and limited flexibility from
complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive
Policy (CARP), a novel paradigm for visuomotor policy learning that redefines
the autoregressive action generation process as a coarse-to-fine, next-scale
approach. CARP decouples action generation into two stages: first, an action
autoencoder learns multi-scale representations of the entire action sequence;
then, a GPT-style transformer refines the sequence prediction through a
coarse-to-fine autoregressive process. This straightforward and intuitive
approach produces highly accurate and smooth actions, matching or even
surpassing the performance of diffusion-based policies while maintaining
efficiency on par with autoregressive policies. We conduct extensive
evaluations across diverse settings, including single-task and multi-task
scenarios on state-based and image-based simulation benchmarks, as well as
real-world tasks. CARP achieves competitive success rates, with up to a 10%
improvement, and delivers 10x faster inference compared to state-of-the-art
policies, establishing a high-performance, efficient, and flexible paradigm for
action generation in robotic tasks.Summary
AI-Generated Summary