FLAC: Maximale Entropie RL durch kinetische Energie-regularisierte Brückenanpassung
FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching
February 13, 2026
papers.authors: Lei Lv, Yunfei Li, Yu Luo, Fuchun Sun, Xiao Ma
cs.AI
papers.abstract
Iterative generative Strategien wie Diffusionsmodelle und Flow-Matching bieten überlegene Ausdrucksfähigkeit für kontinuierliche Steuerung, erschweren jedoch Maximum-Entropy Reinforcement Learning, da ihre Aktionslog-Dichten nicht direkt zugänglich sind. Um dies zu adressieren, schlagen wir Field Least-Energy Actor-Critic (FLAC) vor, ein likelihood-freies Framework, das die Stochastizität der Strategie bestraft, indem es die kinetische Energie des Geschwindigkeitsfeldes penalisiert. Unsere zentrale Erkenntnis ist, Strategieoptimierung als ein Generalized Schrödinger Bridge (GSB)-Problem relativ zu einem Referenzprozess mit hoher Entropie (z.B. uniform) zu formulieren. In dieser Sichtweise ergibt sich das Maximum-Entropy-Prinzip natürlich als das Bestreben, nahe an einer hoch-entropischen Referenz zu bleiben, während der Ertrag optimiert wird, ohne explizite Aktionsdichten zu benötigen. In diesem Framework dient kinetische Energie als physikalisch fundierter Stellvertreter für die Divergenz von der Referenz: Die Minimierung der Energie im Pfadraum begrenzt die Abweichung der induzierten terminalen Aktionsverteilung. Aufbauend auf dieser Sichtweise leiten wir ein energie-regularisiertes Strategie-Iterationsschema und einen praktischen Off-Policy-Algorithmus ab, der die kinetische Energie automatisch über einen Lagrangian-Dual-Mechanismus abstimmt. Empirisch erreicht FLAC auf hochdimensionalen Benchmarks eine überlegene oder vergleichbare Leistung gegenüber starken Baseline-Methoden, während explizite Dichteschätzung vermieden wird.
English
Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.