Testzeit-Gradientenführung von Fluss-Policies im Reinforcement Learning

Zusammenfassung

Ausdrucksstarke kontinuierliche Steuerungspolicen, wie Diffusions- und Flussmodelle, bilden das Rückgrat der jüngsten Fortschritte bei der Skalierung von Imitationslernen für simulierte und reale Robotersteuerung. Obwohl bekannt ist, dass sie im überwachten Imitationslernszenario stabil skalieren, hat sich ihre Integration in Reinforcement-Learning-Pipelines (RL) zur Politikverbesserung als schwieriger erwiesen. Dies erfordert oft spezialisierte Trainingsziele oder die Rückpropagation durch Rauschunterdrückungsprozesse, was zu bekannten Stabilitätsproblemen führt und die Skalierbarkeit beeinträchtigt. In diesem Papier untersuchen wir die Frage, ob einfache Politikverbesserungsschemata allein zur Testzeit, bei intaktem stabilem überwachtem Policentraining, eine wettbewerbsfähige Alternative sein können, die diese Probleme umgeht. Zu diesem Zweck schlagen wir QGF (Q-Guided Flow) vor, einen RL-Algorithmus, der die Politikoptimierung vollständig zur Testzeit durchführt. QGF funktioniert, indem sowohl eine Referenz-Flusspolitik (über ein standardmäßiges Verhaltensklonungsziel) als auch ein Value-Function-Kritiker vortrainiert werden und zur Testzeit der Wertgradient verwendet wird, um die Referenzpolitik zur Erzeugung höherwertiger Aktionen zu leiten, ohne dass zusätzliches Policenlernen erforderlich ist. Empirisch übertrifft QGF frühere Testzeit-RL-Methoden auf Single-Task- und zielbedingten Offline-RL-Benchmarks mit hochdimensionalen Aktionsräumen und ist wettbewerbsfähig mit modernen Trainingszeit-Algorithmen, während die Ausführung viel günstiger ist. Darüber hinaus zeigt es eine günstige Skalierung mit der Modellgröße, da die Instabilität des Actor-Critic-Trainings vermieden wird, und bietet eine praktische und effektive alternative RL-Algorithmus mit ausdrucksstarken Policen.

English

Expressive continuous control policies, such as diffusion and flow models, form the backbone of recent advances in scaling imitation learning for simulated and real robot control. While they are known to scale stably in the supervised imitation learning setting, incorporating them into reinforcement learning (RL) pipelines for policy improvement has proven more difficult. It often requires specialized training objectives or backpropagating through denoising processes, which cause well-known issues with stability and affect scalability. In this paper we study the question of whether simple policy improvement schemes at test time alone, leaving stable supervised policy training intact, can be a competitive alternative which sidesteps these issues. To this end, we propose QGF (Q-Guided Flow), an RL algorithm that performs policy optimization entirely at test time. QGF works by pre-training both a reference flow policy (via a standard behavioral cloning objective) and a value function critic and, at test time, using the value gradient to guide the reference policy to generate higher-value actions without any additional policy learning. Empirically, QGF outperforms prior test-time RL methods on single-task and goal-conditioned offline RL benchmarks with high-dimensional action spaces, and is competitive with state-of-the-art training-time algorithms while being much cheaper to run. Moreover, it exhibits favorable scaling with model size by avoiding the instability of actor-critic training, offering a practical and effective alternative RL algorithm with expressive policies.