Entendiendo la Clonación de Comportamiento con Cuantización de Acciones

Resumen

La clonación de comportamiento es un paradigma fundamental en el aprendizaje automático, que permite el aprendizaje de políticas a partir de demostraciones de expertos en robótica, conducción autónoma y modelos generativos. Los modelos autorregresivos como el transformador han demostrado ser extraordinariamente efectivos, desde los grandes modelos de lenguaje (LLM) hasta los sistemas de visión-lenguaje-acción (VLA). Sin embargo, aplicar modelos autorregresivos al control continuo requiere discretizar las acciones mediante cuantización, una práctica ampliamente adoptada pero poco comprendida teóricamente. Este artículo proporciona los fundamentos teóricos para esta práctica. Analizamos cómo el error de cuantización se propaga a lo largo del horizonte e interactúa con la complejidad muestral estadística. Demostramos que la clonación de comportamiento con acciones cuantizadas y pérdida logarítmica alcanza una complejidad muestral óptima, igualando las cotas inferiores existentes, e incurre únicamente en una dependencia polinomial del horizonte respecto al error de cuantización, siempre que la dinámica sea estable y la política satisfaga una condición de suavidad probabilística. Además, caracterizamos cuándo diferentes esquemas de cuantización satisfacen o violan estos requisitos, y proponemos una aumentación basada en modelos que mejora demostrablemente la cota de error sin requerir suavidad en la política. Finalmente, establecemos límites fundamentales que capturan conjuntamente los efectos del error de cuantización y la complejidad estadística.

English

Behavior cloning is a fundamental paradigm in machine learning, enabling policy learning from expert demonstrations across robotics, autonomous driving, and generative models. Autoregressive models like transformer have proven remarkably effective, from large language models (LLMs) to vision-language-action systems (VLAs). However, applying autoregressive models to continuous control requires discretizing actions through quantization, a practice widely adopted yet poorly understood theoretically. This paper provides theoretical foundations for this practice. We analyze how quantization error propagates along the horizon and interacts with statistical sample complexity. We show that behavior cloning with quantized actions and log-loss achieves optimal sample complexity, matching existing lower bounds, and incurs only polynomial horizon dependence on quantization error, provided the dynamics are stable and the policy satisfies a probabilistic smoothness condition. We further characterize when different quantization schemes satisfy or violate these requirements, and propose a model-based augmentation that provably improves the error bound without requiring policy smoothness. Finally, we establish fundamental limits that jointly capture the effects of quantization error and statistical complexity.

Entendiendo la Clonación de Comportamiento con Cuantización de Acciones

Understanding Behavior Cloning with Action Quantization

Resumen

Support