ChatPaper.aiChatPaper

FLAC: 運動エネルギー正則化ブリッジマッチングによる最大エントロピー強化学習

FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

February 13, 2026
著者: Lei Lv, Yunfei Li, Yu Luo, Fuchun Sun, Xiao Ma
cs.AI

要旨

拡散モデルやフローマッチングなどの反復的生成ポリシーは、連続制御において優れた表現力を提供するが、行動の対数密度が直接利用できないため、最大エントロピー強化学習を複雑にする。この問題に対処するため、我々は速度場の運動エネルギーを正則化する尤度不要のフレームワーク「Field Least-Energy Actor-Critic (FLAC)」を提案する。重要な洞察は、高エントロピーな参照過程(例えば一様分布)に対する一般化シュレーディンガー橋問題としてポリシー最適化を定式化することである。この視点により、明示的な行動密度を必要とせず、収益を最適化しながら高エントロピー参照に近づくことが、自然に最大エントロピー原理として導かれる。本フレームワークでは、運動エネルギーは参照からの乖離を物理的に根拠づける指標として機能し、経路空間のエネルギー最小化は誘導される終端行動分布の偏差を抑える。この視点に基づき、エネルギー正則化付きポリシー反復手法と、ラグランジュ双対機構による運動エネルギーの自動調整を実現する実用的なオフポリシーアルゴリズムを導出する。実験では、FLACは高次元ベンチマークにおいて強力なベースラインと比較して優れた、あるいは同等の性能を達成しつつ、明示的な密度推定を回避する。
English
Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.
PDF32February 17, 2026