CARP: Aprendizagem de Política Visuomotora por meio de Predição Autoregressiva de Grossa a Fina
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
December 9, 2024
Autores: Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang
cs.AI
Resumo
Na aprendizagem de políticas visuomotoras robóticas, os modelos baseados em difusão alcançaram
um sucesso significativo na melhoria da precisão da geração de trajetória de ação
em comparação com os modelos autoregressivos tradicionais. No entanto, eles sofrem de
ineficiência devido a múltiplas etapas de desnoise e flexibilidade limitada de
restrições complexas. Neste artigo, apresentamos a Política AutoRegressiva Grossa-a-Fina (CARP), um novo paradigma para a aprendizagem de políticas visuomotoras que redefine
o processo de geração de ação autoregressiva como uma abordagem de próxima escala grossa-a-fina. CARP desacopla a geração de ação em duas etapas: primeiro, um
autoencoder de ação aprende representações multi-escala de toda a sequência de ação;
em seguida, um transformador no estilo GPT refina a previsão da sequência através de um
processo autoregressivo grosseiro-a-fino. Esta abordagem direta e intuitiva
produz ações altamente precisas e suaves, igualando ou até
ultrapassando o desempenho de políticas baseadas em difusão enquanto mantém
eficiência em nível com políticas autoregressivas. Realizamos extensas
avaliações em diversos cenários, incluindo cenários de tarefa única e multi-tarefa
em benchmarks de simulação baseados em estado e imagem, bem como
tarefas do mundo real. CARP alcança taxas de sucesso competitivas, com até 10%
de melhoria, e oferece uma inferência 10 vezes mais rápida em comparação com as políticas de ponta,
estabelecendo um paradigma de alto desempenho, eficiente e flexível para
geração de ação em tarefas robóticas.
English
In robotic visuomotor policy learning, diffusion-based models have achieved
significant success in improving the accuracy of action trajectory generation
compared to traditional autoregressive models. However, they suffer from
inefficiency due to multiple denoising steps and limited flexibility from
complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive
Policy (CARP), a novel paradigm for visuomotor policy learning that redefines
the autoregressive action generation process as a coarse-to-fine, next-scale
approach. CARP decouples action generation into two stages: first, an action
autoencoder learns multi-scale representations of the entire action sequence;
then, a GPT-style transformer refines the sequence prediction through a
coarse-to-fine autoregressive process. This straightforward and intuitive
approach produces highly accurate and smooth actions, matching or even
surpassing the performance of diffusion-based policies while maintaining
efficiency on par with autoregressive policies. We conduct extensive
evaluations across diverse settings, including single-task and multi-task
scenarios on state-based and image-based simulation benchmarks, as well as
real-world tasks. CARP achieves competitive success rates, with up to a 10%
improvement, and delivers 10x faster inference compared to state-of-the-art
policies, establishing a high-performance, efficient, and flexible paradigm for
action generation in robotic tasks.Summary
AI-Generated Summary