FLAC: Reinforcement Learning a Entropia Massima tramite Regolarizzazione dell'Energia Cinetica e Bridge Matching

Abstract

Le politiche generative iterative, come i modelli di diffusione e il flow matching, offrono una superiore espressività per il controllo continuo ma complicano il Reinforcement Learning a Massima Entropia poiché le loro log-densità delle azioni non sono direttamente accessibili. Per affrontare questo problema, proponiamo Field Least-Energy Actor-Critic (FLAC), un framework senza verosimiglianza che regola la stocasticità della politica penalizzando l'energia cinetica del campo di velocità. La nostra intuizione chiave è formulare l'ottimizzazione della politica come un problema del Generalized Schrödinger Bridge (GSB) relativo a un processo di riferimento ad alta entropia (ad esempio, uniforme). In questa prospettiva, il principio di massima entropia emerge naturalmente come il rimanere vicini a un riferimento ad alta entropia mentre si ottimizza il ritorno, senza richiedere densità di azione esplicite. In questo framework, l'energia cinetica funge da proxy fisicamente fondato per la divergenza dal riferimento: minimizzare l'energia nello spazio dei cammini limita la deviazione della distribuzione di azione terminale indotta. Basandoci su questa visione, deriviamo uno schema di policy iteration regolarizzato dall'energia e un algoritmo pratico off-policy che sintonizza automaticamente l'energia cinetica attraverso un meccanismo duale Lagrangiano. Empiricamente, FLAC raggiunge prestazioni superiori o comparabili su benchmark ad alta dimensionalità rispetto a baseline solidi, evitando al contempo la stima esplicita della densità.

English

Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.

FLAC: Reinforcement Learning a Entropia Massima tramite Regolarizzazione dell'Energia Cinetica e Bridge Matching

FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

Abstract

Support