Apprentissage par Renforcement via le Flux du Gradient de la Valeur

Résumé

Nous étudions l'apprentissage par renforcement régularisé par le comportement, où la régularisation vers une distribution de référence (le jeu de données en RL hors ligne ou le modèle de base dans le réglage fin par RL des LLM) est essentielle pour éviter la sur-optimisation des valeurs causée par une extrapolation erronée hors distribution. Les méthodes existantes reposent soit sur un gradient de politique reparamétré, difficile à mettre à l'échelle pour les grands modèles génératifs, soit sur un échantillonnage de rejet, qui peut être excessivement conservateur lorsqu'on tente de dépasser le support du comportement. Dans cet article, nous proposons Value Gradient Flow (VGF), un nouveau paradigme évolutif pour le RL régularisé par le comportement. VGF reformule le RL régularisé par le comportement comme un problème de transport optimal qui mappe la distribution de référence vers la distribution de politique optimale induite par la valeur. Nous résolvons ce problème de transport via un flux de gradient discret, où les gradients de valeur guident des particules initialisées à partir de la distribution de référence. Notre analyse montre que VGF impose une régularisation implicitement en contrôlant le budget de transport. VGF élimine la paramétrisation explicite de la politique tout en restant expressif et flexible, ce qui permet une mise à l'échelle adaptative au moment du test en ajustant le budget de transport. Des expériences approfondies démontrent que VGF surpasse significativement les méthodes antérieures, obtenant des résultats state-of-the-art sur les benchmarks de RL hors ligne (D4RL, OGBench) et les tâches de RL pour LLM. Le code et les exécutions sont disponibles à l'adresse https://ryanxhr.github.io/vgf.

English

We study behavior-regularized reinforcement learning (RL), where regularization toward a reference distribution (the dataset in offline RL or the base model in LLM RL finetuning) is essential to prevent value over-optimization caused by erroneous out-of-distribution extrapolation. Existing methods either rely on reparameterized policy gradient, which are difficult to scale to large generative models, or on reject sampling, which can be overly conservative when attempting to move beyond the behavior support. In this paper, we propose Value Gradient Flow (VGF), a scalable new paradigm for behavior-regularized RL. VGF casts behavior-regularized RL as an optimal transport problem that maps the reference distribution to the value-induced optimal policy distribution. We solve this transport problem via discrete gradient flow, where value gradients guide particles initialized from the reference distribution. Our analysis shows that VGF imposes regularization implicitly by controlling the transport budget. VGF eliminates explicit policy parameterization while remaining expressive and flexible, this enables adaptive test-time scaling by adjusting the transport budget. Extensive experiments demonstrate that VGF significantly outperforms prior methods, achieving state-of-the-art results on offline RL benchmarks (D4RL, OGBench) and LLM RL tasks. Code and runs can be found at https://ryanxhr.github.io/vgf.

Apprentissage par Renforcement via le Flux du Gradient de la Valeur

Reinforcement Learning via Value Gradient Flow

Résumé

Support