Comprendere la Clonazione del Comportamento con Quantizzazione delle Azioni

Abstract

La clonazione comportamentale è un paradigma fondamentale nell'apprendimento automatico, che consente l'apprendimento di politiche a partire da dimostrazioni esperte in ambiti come la robotica, la guida autonoma e i modelli generativi. Modelli autoregressivi come il transformer si sono dimostrati straordinariamente efficaci, dai grandi modelli linguistici (LLM) ai sistemi visione-linguaggio-azione (VLA). Tuttavia, l'applicazione di modelli autoregressivi al controllo continuo richiede la discretizzazione delle azioni tramite quantizzazione, una pratica ampiamente adottata ma scarsamente compresa dal punto di vista teorico. Questo articolo fornisce i fondamenti teorici per tale pratica. Analizziamo come l'errore di quantizzazione si propaga lungo l'orizzonte temporale e interagisce con la complessità campionaria statistica. Dimostriamo che la clonazione comportamentale con azioni quantizzate e perdita logaritmica raggiunge una complessità campionaria ottimale, eguagliando i limiti inferiori esistenti, e comporta solo una dipendenza polinomiale dall'errore di quantizzazione rispetto all'orizzonte, a condizione che la dinamica sia stabile e la politica soddisfi una condizione di levigatezza probabilistica. Caratterizziamo inoltre quando diversi schemi di quantizzazione soddisfano o violano questi requisiti e proponiamo un'integrazione basata su modello che migliora provabilmente il limite d'errore senza richiedere la levigatezza della politica. Infine, stabiliamo limiti fondamentali che catturano congiuntamente gli effetti dell'errore di quantizzazione e della complessità statistica.

English

Behavior cloning is a fundamental paradigm in machine learning, enabling policy learning from expert demonstrations across robotics, autonomous driving, and generative models. Autoregressive models like transformer have proven remarkably effective, from large language models (LLMs) to vision-language-action systems (VLAs). However, applying autoregressive models to continuous control requires discretizing actions through quantization, a practice widely adopted yet poorly understood theoretically. This paper provides theoretical foundations for this practice. We analyze how quantization error propagates along the horizon and interacts with statistical sample complexity. We show that behavior cloning with quantized actions and log-loss achieves optimal sample complexity, matching existing lower bounds, and incurs only polynomial horizon dependence on quantization error, provided the dynamics are stable and the policy satisfies a probabilistic smoothness condition. We further characterize when different quantization schemes satisfy or violate these requirements, and propose a model-based augmentation that provably improves the error bound without requiring policy smoothness. Finally, we establish fundamental limits that jointly capture the effects of quantization error and statistical complexity.

Comprendere la Clonazione del Comportamento con Quantizzazione delle Azioni

Understanding Behavior Cloning with Action Quantization

Abstract

Support