Verständnis von Behavior Cloning mit Aktionsquantisierung
Understanding Behavior Cloning with Action Quantization
March 20, 2026
Autoren: Haoqun Cao, Tengyang Xie
cs.AI
Zusammenfassung
Behavior Cloning ist ein grundlegendes Paradigma im maschinellen Lernen, das das Erlernen von Strategien aus Experten-Demonstrationen in Bereichen wie Robotik, autonomes Fahren und generative Modelle ermöglicht. Autoregressive Modelle wie der Transformer haben sich als außerordentlich effektiv erwiesen, von großen Sprachmodellen (LLMs) bis hin zu visuell-sprachlich-aktionalen Systemen (VLAs). Die Anwendung autoregressiver Modelle auf kontinuierliche Steuerungsprobleme erfordert jedoch eine Diskretisierung der Aktionen durch Quantisierung – eine weit verbreitete, aber theoretisch kaum verstandene Praxis. Diese Arbeit legt die theoretischen Grundlagen für diese Praxis dar. Wir analysieren, wie sich der Quantisierungsfehler über den Zeithorizont fortpflanzt und mit der statistischen Stichprobenkomplexität interagiert. Wir zeigen, dass Behavior Cloning mit quantisierten Aktionen und Log-Loss eine optimale Stichprobenkomplexität erreicht, die bestehende untere Schranken erreicht, und nur eine polynomielle Abhängigkeit des Fehlers vom Zeithorizont aufweist, vorausgesetzt, die Dynamik sind stabil und die Strategie erfüllt eine probabilistische Glattheitsbedingung. Weiterhin charakterisieren wir, wann verschiedene Quantisierungsschemata diese Anforderungen erfüllen oder verletzen, und schlagen eine modellbasierte Erweiterung vor, die nachweislich die Fehlerschranke verbessert, ohne Glattheit der Strategie vorauszusetzen. Abschließend ermitteln wir fundamentale Grenzen, die die Effekte von Quantisierungsfehler und statistischer Komplexität gemeinsam erfassen.
English
Behavior cloning is a fundamental paradigm in machine learning, enabling policy learning from expert demonstrations across robotics, autonomous driving, and generative models. Autoregressive models like transformer have proven remarkably effective, from large language models (LLMs) to vision-language-action systems (VLAs). However, applying autoregressive models to continuous control requires discretizing actions through quantization, a practice widely adopted yet poorly understood theoretically. This paper provides theoretical foundations for this practice. We analyze how quantization error propagates along the horizon and interacts with statistical sample complexity. We show that behavior cloning with quantized actions and log-loss achieves optimal sample complexity, matching existing lower bounds, and incurs only polynomial horizon dependence on quantization error, provided the dynamics are stable and the policy satisfies a probabilistic smoothness condition. We further characterize when different quantization schemes satisfy or violate these requirements, and propose a model-based augmentation that provably improves the error bound without requiring policy smoothness. Finally, we establish fundamental limits that jointly capture the effects of quantization error and statistical complexity.