ChatPaper.aiChatPaper

FLAC: 운동 에너지 정규화 브릿지 매칭을 통한 최대 엔트로피 강화학습

FLAC: Maximum Entropy RL via Kinetic Energy Regularized Bridge Matching

February 13, 2026
저자: Lei Lv, Yunfei Li, Yu Luo, Fuchun Sun, Xiao Ma
cs.AI

초록

확산 모델 및 흐름 매칭과 같은 반복적 생성 정책은 연속 제어에 대해 우수한 표현력을 제공하지만, 행동 로그 밀도에 직접 접근할 수 없어 최대 엔트로피 강화 학습을 복잡하게 만듭니다. 이를 해결하기 위해 우리는 속도장의 운동 에너지를 패널티로 사용하여 정책 확률성을 규제하는 우도-비산업(likelihood-free) 프레임워크인 Field Least-Energy Actor-Critic(FLAC)을 제안합니다. 우리의 핵심 통찰은 정책 최적화를 고엔트로피 참조 과정(예: 균등 분포)에 대한 일반화 슈뢰딩거 브리지 문제로 공식화하는 것입니다. 이 관점 아래에서, 최대 엔트로피 원리는 명시적인 행동 밀도를 요구하지 않으면서 높은 엔트로피 참조에 가까이 머물며 보상을 최적화하는 과정에서 자연스럽게 등장합니다. 이 프레임워크에서 운동 에너지는 참조 분포로부터의 발산을 측정하는 물리적으로 근거된 대리 지표 역할을 합니다: 경로 공간 에너지를 최소화하면 유도된 최종 행동 분포의 편차가 제한됩니다. 이 관점을 바탕으로, 우리는 에너지 정규화된 정책 반복 체계와 라그랑지안 듀얼 메커니즘을 통해 운동 에너지를 자동으로 조정하는 실용적인 오프-폴리시 알고리즘을 유도합니다. 실험적으로 FLAC은 명시적인 밀도 추정을 회피하면서도 고차원 벤치마크에서 강력한 기준선 대비 우수하거나 비슷한 성능을 달성합니다.
English
Iterative generative policies, such as diffusion models and flow matching, offer superior expressivity for continuous control but complicate Maximum Entropy Reinforcement Learning because their action log-densities are not directly accessible. To address this, we propose Field Least-Energy Actor-Critic (FLAC), a likelihood-free framework that regulates policy stochasticity by penalizing the kinetic energy of the velocity field. Our key insight is to formulate policy optimization as a Generalized Schrödinger Bridge (GSB) problem relative to a high-entropy reference process (e.g., uniform). Under this view, the maximum-entropy principle emerges naturally as staying close to a high-entropy reference while optimizing return, without requiring explicit action densities. In this framework, kinetic energy serves as a physically grounded proxy for divergence from the reference: minimizing path-space energy bounds the deviation of the induced terminal action distribution. Building on this view, we derive an energy-regularized policy iteration scheme and a practical off-policy algorithm that automatically tunes the kinetic energy via a Lagrangian dual mechanism. Empirically, FLAC achieves superior or comparable performance on high-dimensional benchmarks relative to strong baselines, while avoiding explicit density estimation.
PDF32February 17, 2026