Градиентное управление потоковыми политиками на этапе тестирования в обучении с подкреплением

Аннотация

Экспрессивные политики непрерывного управления, такие как модели диффузии и потока, составляют основу недавних достижений в масштабировании имитационного обучения для управления симулированными и реальными роботами. Хотя известно, что они стабильно масштабируются в условиях обучения с учителем по имитации, их интеграция в конвейеры обучения с подкреплением (RL) для улучшения политик оказалась более сложной. Это часто требует специализированных целей обучения или обратного распространения через процессы шумоподавления, что вызывает известные проблемы со стабильностью и влияет на масштабируемость. В данной работе мы изучаем вопрос о том, могут ли простые схемы улучшения политик только на этапе тестирования, при сохранении стабильного обучения политик с учителем, стать конкурентоспособной альтернативой, позволяющей избежать этих проблем. С этой целью мы предлагаем QGF (Q-Guided Flow — поток, направляемый Q-функцией) — алгоритм RL, выполняющий оптимизацию политик исключительно на этапе тестирования. QGF работает путем предварительного обучения как эталонной потоковой политики (с помощью стандартной цели поведенческого клонирования), так и критика в виде функции ценности, а на этапе тестирования использует градиент ценности для направления эталонной политики на генерацию действий с более высокой ценностью без дополнительного обучения политики. Эмпирически QGF превосходит предыдущие методы RL для тестирования в автономных эталонных тестах RL с однозадачными и целенаправленными задачами, работающих с пространствами действий высокой размерности, и конкурирует с современными алгоритмами, обучаемыми в процессе тренировки, при этом значительно дешевле в исполнении. Кроме того, он демонстрирует благоприятное масштабирование с ростом размера модели за счет избегания нестабильности обучения актора-критика, предлагая практичную и эффективную альтернативу алгоритмам RL с экспрессивными политиками.

English

Expressive continuous control policies, such as diffusion and flow models, form the backbone of recent advances in scaling imitation learning for simulated and real robot control. While they are known to scale stably in the supervised imitation learning setting, incorporating them into reinforcement learning (RL) pipelines for policy improvement has proven more difficult. It often requires specialized training objectives or backpropagating through denoising processes, which cause well-known issues with stability and affect scalability. In this paper we study the question of whether simple policy improvement schemes at test time alone, leaving stable supervised policy training intact, can be a competitive alternative which sidesteps these issues. To this end, we propose QGF (Q-Guided Flow), an RL algorithm that performs policy optimization entirely at test time. QGF works by pre-training both a reference flow policy (via a standard behavioral cloning objective) and a value function critic and, at test time, using the value gradient to guide the reference policy to generate higher-value actions without any additional policy learning. Empirically, QGF outperforms prior test-time RL methods on single-task and goal-conditioned offline RL benchmarks with high-dimensional action spaces, and is competitive with state-of-the-art training-time algorithms while being much cheaper to run. Moreover, it exhibits favorable scaling with model size by avoiding the instability of actor-critic training, offering a practical and effective alternative RL algorithm with expressive policies.