Verstärkungslernen über Wertgradientenfluss

Zusammenfassung

Wir untersuchen verhaltensregularisierte Verstärkungslernverfahren (RL), bei denen die Regularisierung hin zu einer Referenzverteilung (dem Datensatz im Offline-RL oder dem Basismodell im RL-Feintuning von LLMs) entscheidend ist, um eine Wertüberoptimierung zu verhindern, die durch fehlerhafte Extrapolation außerhalb der Verteilung verursacht wird. Bestehende Methoden setzen entweder auf reparametrisierte Policy-Gradienten, die schwer auf große generative Modelle skalierbar sind, oder auf Rejektionssampling, das zu konservativ sein kann, wenn man über den Unterstützungsbereich des Verhaltens hinausgehen möchte. In dieser Arbeit schlagen wir Value Gradient Flow (VGF) vor, ein skalierbares neues Paradigma für verhaltensregularisiertes RL. VGF formuliert verhaltensregularisiertes RL als ein Optimal-Transport-Problem, das die Referenzverteilung auf die wertinduzierte optimale Policy-Verteilung abbildet. Wir lösen dieses Transportproblem mittels diskretem Gradientenfluss, bei dem Wertgradienten Partikel leiten, die von der Referenzverteilung initialisiert werden. Unsere Analyse zeigt, dass VGF Regularisierung implizit durch die Kontrolle des Transportbudgets erzwingt. VGF eliminiert eine explizite Policy-Parametrisierung, bleibt dabei jedoch ausdrucksstark und flexibel, was eine adaptive Skalierung zur Laufzeit durch Anpassung des Transportbudgets ermöglicht. Umfangreiche Experimente belegen, dass VGF bisherige Methoden signifikant übertrifft und state-of-the-art Ergebnisse auf Offline-RL-Benchmarks (D4RL, OGBench) und LLM-RL-Aufgaben erzielt. Code und Durchläufe sind unter https://ryanxhr.github.io/vgf verfügbar.

English

We study behavior-regularized reinforcement learning (RL), where regularization toward a reference distribution (the dataset in offline RL or the base model in LLM RL finetuning) is essential to prevent value over-optimization caused by erroneous out-of-distribution extrapolation. Existing methods either rely on reparameterized policy gradient, which are difficult to scale to large generative models, or on reject sampling, which can be overly conservative when attempting to move beyond the behavior support. In this paper, we propose Value Gradient Flow (VGF), a scalable new paradigm for behavior-regularized RL. VGF casts behavior-regularized RL as an optimal transport problem that maps the reference distribution to the value-induced optimal policy distribution. We solve this transport problem via discrete gradient flow, where value gradients guide particles initialized from the reference distribution. Our analysis shows that VGF imposes regularization implicitly by controlling the transport budget. VGF eliminates explicit policy parameterization while remaining expressive and flexible, this enables adaptive test-time scaling by adjusting the transport budget. Extensive experiments demonstrate that VGF significantly outperforms prior methods, achieving state-of-the-art results on offline RL benchmarks (D4RL, OGBench) and LLM RL tasks. Code and runs can be found at https://ryanxhr.github.io/vgf.

Verstärkungslernen über Wertgradientenfluss

Reinforcement Learning via Value Gradient Flow

Zusammenfassung

Support