FLAC: Maximale Entropie RL via Brugmatching met Kinetische Energie Regularisatie

Samenvatting

Iteratieve generatieve beleidsmodellen, zoals diffusiemodellen en 'flow matching', bieden superieure expressiviteit voor continue controle, maar compliceren 'Maximum Entropy Reinforcement Learning' omdat hun actie-log-dichtheden niet direct toegankelijk zijn. Om dit aan te pakken, stellen we 'Field Least-Energy Actor-Critic' (FLAC) voor, een 'likelihood-free' raamwerk dat de stochasticiteit van het beleid reguleert door de kinetische energie van het snelheidsveld te bestraffen. Onze belangrijkste inzicht is om beleidsoptimalisatie te formuleren als een 'Generalized Schrödinger Bridge' (GSB) probleem ten opzichte van een referentieproces met hoge entropie (bijvoorbeeld uniform). In dit perspectief ontstaat het maximum-entropieprincipe van nature door dicht bij een referentie met hoge entropie te blijven terwijl de opbrengst wordt geoptimaliseerd, zonder expliciete actiedichtheden te vereisen. In dit raamwerk dient kinetische energie als een fysiek gefundeerde proxy voor divergentie van de referentie: het minimaliseren van de energie in de padruimte begrenst de afwijking van de geïnduceerde terminale actieverdeling. Voortbouwend op dit inzicht leiden we een energie-gereguleerd beleidsiteratieschema en een praktisch 'off-policy' algoritme af dat de kinetische energie automatisch afstelt via een Lagrangiaans duale mechanisme. Empirisch behaalt FLAC superieure of vergelijkbare prestaties op hoogdimensionale benchmarks ten opzichte van sterke 'baselines', terwijl expliciete dichtheidsschatting wordt vermeden.

English

Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.

FLAC: Maximale Entropie RL via Brugmatching met Kinetische Energie Regularisatie

FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

Samenvatting

Support