Понимание клонирования поведения с квантованием действий

Аннотация

Клонирование поведения является фундаментальной парадигмой в машинном обучении, позволяющей обучать политики на основе экспертных демонстраций в таких областях, как робототехника, автономное вождение и генеративные модели. Авторегрессионные модели, такие как трансформеры, доказали свою высокую эффективность — от больших языковых моделей (LLM) до систем «зрение-язык-действие» (VLA). Однако применение авторегрессионных моделей к задачам непрерывного управления требует дискретизации действий посредством квантования — широко распространенной практики, но слабо изученной в теоретическом плане. В данной статье закладываются теоретические основы для этой практики. Мы анализируем, как ошибка квантования распространяется вдоль горизонта планирования и взаимодействует со статистической сложностью выборки. Мы показываем, что клонирование поведения с квантованными действиями и логарифмическими потерями достигает оптимальной сложности выборки, соответствуя существующим нижним границам, и приводит лишь к полиномиальной зависимости от горизонта при ошибке квантования при условии, что динамика системы устойчива, а политика удовлетворяет условию вероятностной гладкости. Мы также характеризуем случаи, когда различные схемы квантования удовлетворяют или нарушают эти требования, и предлагаем модельную аугментацию, которая теоретически улучшает границу ошибки без требования гладкости политики. Наконец, мы устанавливаем фундаментальные пределы, которые совместно учитывают влияние ошибки квантования и статистической сложности.

English

Behavior cloning is a fundamental paradigm in machine learning, enabling policy learning from expert demonstrations across robotics, autonomous driving, and generative models. Autoregressive models like transformer have proven remarkably effective, from large language models (LLMs) to vision-language-action systems (VLAs). However, applying autoregressive models to continuous control requires discretizing actions through quantization, a practice widely adopted yet poorly understood theoretically. This paper provides theoretical foundations for this practice. We analyze how quantization error propagates along the horizon and interacts with statistical sample complexity. We show that behavior cloning with quantized actions and log-loss achieves optimal sample complexity, matching existing lower bounds, and incurs only polynomial horizon dependence on quantization error, provided the dynamics are stable and the policy satisfies a probabilistic smoothness condition. We further characterize when different quantization schemes satisfy or violate these requirements, and propose a model-based augmentation that provably improves the error bound without requiring policy smoothness. Finally, we establish fundamental limits that jointly capture the effects of quantization error and statistical complexity.

Понимание клонирования поведения с квантованием действий

Understanding Behavior Cloning with Action Quantization

Аннотация

Support