CARP: Visuomotorik-Richtlinienlernen über grob- bis feinkörnige autoregressive Vorhersage
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction
December 9, 2024
Autoren: Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang
cs.AI
Zusammenfassung
In der robotergestützten visuomotorischen Richtlinienlernen haben diffusionsbasierte Modelle im Vergleich zu traditionellen autoregressiven Modellen signifikante Erfolge bei der Verbesserung der Genauigkeit der Aktionspfadgenerierung erzielt. Sie leiden jedoch unter Ineffizienz aufgrund mehrerer Rauschunterdrückungsschritte und begrenzter Flexibilität durch komplexe Einschränkungen. In diesem Artikel stellen wir Coarse-to-Fine AutoRegressive Policy (CARP) vor, ein neuartiges Paradigma für das visuomotorische Richtlinienlernen, das den autoregressiven Aktionsgenerierungsprozess als grob-zu-fein, nächstgrößen Ansatz neu definiert. CARP entkoppelt die Aktionsgenerierung in zwei Phasen: Zunächst lernt ein Aktionsautoencoder mehrskalige Repräsentationen der gesamten Aktionssequenz; dann verfeinert ein Transformer im GPT-Stil die Sequenzvorhersage durch einen grob-zu-fein autoregressiven Prozess. Dieser einfache und intuitive Ansatz erzeugt äußerst genaue und reibungslose Aktionen, die die Leistung diffusionsbasierter Richtlinien erreichen oder übertreffen, während die Effizienz auf dem Niveau autoregressiver Richtlinien bleibt. Wir führen umfangreiche Bewertungen in verschiedenen Umgebungen durch, einschließlich Einzelaufgaben- und Mehrfachaufgaben-Szenarien in zustandsbasierten und bildbasierten Simulationsbenchmarks sowie realen Aufgaben. CARP erzielt wettbewerbsfähige Erfolgsraten mit einer Verbesserung von bis zu 10% und bietet im Vergleich zu modernsten Richtlinien eine 10-fach schnellere Inferenz, was ein leistungsstarkes, effizientes und flexibles Paradigma für die Aktionsgenerierung in robotergestützten Aufgaben etabliert.
English
In robotic visuomotor policy learning, diffusion-based models have achieved
significant success in improving the accuracy of action trajectory generation
compared to traditional autoregressive models. However, they suffer from
inefficiency due to multiple denoising steps and limited flexibility from
complex constraints. In this paper, we introduce Coarse-to-Fine AutoRegressive
Policy (CARP), a novel paradigm for visuomotor policy learning that redefines
the autoregressive action generation process as a coarse-to-fine, next-scale
approach. CARP decouples action generation into two stages: first, an action
autoencoder learns multi-scale representations of the entire action sequence;
then, a GPT-style transformer refines the sequence prediction through a
coarse-to-fine autoregressive process. This straightforward and intuitive
approach produces highly accurate and smooth actions, matching or even
surpassing the performance of diffusion-based policies while maintaining
efficiency on par with autoregressive policies. We conduct extensive
evaluations across diverse settings, including single-task and multi-task
scenarios on state-based and image-based simulation benchmarks, as well as
real-world tasks. CARP achieves competitive success rates, with up to a 10%
improvement, and delivers 10x faster inference compared to state-of-the-art
policies, establishing a high-performance, efficient, and flexible paradigm for
action generation in robotic tasks.Summary
AI-Generated Summary