FLAC: Максимальная энтропия RL через регуляризацию кинетической энергией и сопоставление мостов
FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching
February 13, 2026
Авторы: Lei Lv, Yunfei Li, Yu Luo, Fuchun Sun, Xiao Ma
cs.AI
Аннотация
Итеративные генеративные политики, такие как диффузионные модели и согласование потоков, обеспечивают превосходную выразительность для непрерывного управления, но усложняют обучение с подкреплением с максимальной энтропией, поскольку логарифмические плотности действий для них недоступны напрямую. Чтобы решить эту проблему, мы предлагаем метод Field Least-Energy Actor-Critic (FLAC) — свободный от правдоподобия фреймворк, который регулирует стохастичность политики путем штрафования кинетической энергии поля скоростей. Наше ключевое наблюдение заключается в формулировке оптимизации политики как задачи обобщенного моста Шрёдингера (GSB) относительно высокоэнтропийного референсного процесса (например, равномерного). В этой интерпретации принцип максимальной энтропии возникает естественным образом как стремление оставаться близко к высокоэнтропийному референсу при оптимизации возврата, без необходимости вычисления явных плотностей действий. В данном фреймворке кинетическая энергия служит физически обоснованным суррогатом для расхождения с референсом: минимизация энергии в пространстве путей ограничивает отклонение индуцированного терминального распределения действий. Основываясь на этой интерпретации, мы выводим схему итерации политики с регуляризацией по энергии и практический офф-политичный алгоритм, который автоматически настраивает кинетическую энергию с помощью механизма двойственной лагранжевой переменной. Экспериментально FLAC демонстрирует превосходящую или сопоставимую производительность на высокоразмерных бенчмарках по сравнению с сильными базовыми методами, избегая явного оценивания плотности.
English
Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.