CARP: Обучение визуомоторной политики через грубое к тонкому авторегрессионное предсказание
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
December 9, 2024
Авторы: Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang
cs.AI
Аннотация
В обучении роботизированной визуомоторной политики модели на основе диффузии достигли значительного успеха в улучшении точности генерации траектории действий по сравнению с традиционными авторегрессионными моделями. Однако они страдают от неэффективности из-за нескольких этапов денойзинга и ограниченной гибкости из-за сложных ограничений. В данной статье мы представляем Coarse-to-Fine AutoRegressive Policy (CARP), новую парадигму обучения визуомоторной политики, которая переопределяет процесс авторегрессионной генерации действий как грубо-конечный подход следующего масштаба. CARP разделяет генерацию действий на два этапа: сначала автоэнкодер действий изучает многомасштабные представления всей последовательности действий; затем трансформер в стиле GPT уточняет прогнозирование последовательности через грубо-конечный авторегрессионный процесс. Этот простой и интуитивный подход обеспечивает высокую точность и плавность действий, соответствующих или даже превосходящих производительность политик на основе диффузии, сохраняя при этом эффективность на уровне авторегрессионных политик. Мы проводим обширные оценки в различных средах, включая сценарии однозадачных и многозадачных на базе состояний и изображений в симуляционных бенчмарках, а также в реальных задачах. CARP достигает конкурентоспособных показателей успешности, с улучшением до 10%, и обеспечивает 10-кратное ускорение вывода по сравнению с передовыми политиками, устанавливая высокопроизводительную, эффективную и гибкую парадигму для генерации действий в робототехнических задачах.
English
In robotic visuomotor policy learning, diffusion-based models have achieved
significant success in improving the accuracy of action trajectory generation
compared to traditional autoregressive models. However, they suffer from
inefficiency due to multiple denoising steps and limited flexibility from
complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive
Policy (CARP), a novel paradigm for visuomotor policy learning that redefines
the autoregressive action generation process as a coarse-to-fine, next-scale
approach. CARP decouples action generation into two stages: first, an action
autoencoder learns multi-scale representations of the entire action sequence;
then, a GPT-style transformer refines the sequence prediction through a
coarse-to-fine autoregressive process. This straightforward and intuitive
approach produces highly accurate and smooth actions, matching or even
surpassing the performance of diffusion-based policies while maintaining
efficiency on par with autoregressive policies. We conduct extensive
evaluations across diverse settings, including single-task and multi-task
scenarios on state-based and image-based simulation benchmarks, as well as
real-world tasks. CARP achieves competitive success rates, with up to a 10%
improvement, and delivers 10x faster inference compared to state-of-the-art
policies, establishing a high-performance, efficient, and flexible paradigm for
action generation in robotic tasks.Summary
AI-Generated Summary