Safe Flow Q-Learning: Sicheres Reinforcement Learning im Offline-Betrieb mit Erreichbarkeits-basierten Flow-Policies
Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies
March 16, 2026
Autoren: Mumuksh Tayal, Manan Tayal, Ravi Prakash
cs.AI
Zusammenfassung
Offline Safe Reinforcement Learning (RL) zielt darauf ab, belohnungsmaximierende Strategien aus statischen Datensätzen unter strengen Sicherheitsbeschränkungen zu ermitteln. Bestehende Methoden stützen sich oft auf weiche erwartete Kostenziele oder iterativen generativen Inferenz, was für sicherheitskritische Echtzeitsteuerungen unzureichend sein kann. Wir schlagen Safe Flow Q-Learning (SafeFQL) vor, das FQL auf sicheres Offline-RL erweitert, indem es eine sicherheitskritische Wertfunktion, inspiriert von der Hamilton-Jacobi-Erreichbarkeit, mit einer effizienten Ein-Schritt-Flow-Policy kombiniert. SafeFQL lernt den Sicherheitswert über eine Bellman-Selbstkonsistenzrekursion, trainiert eine Flow-Policy durch Behavior Cloning und destilliert diese in einen Ein-Schritt-Aktor zur belohnungsmaximierenden, sicheren Aktionsauswahl ohne Rejection Sampling bei der Bereitstellung. Um Approximationsfehler aufgrund begrenzter Daten in der gelernten Sicherheitsgrenze zu berücksichtigen, fügen wir einen Conformal Prediction-Kalibrierungsschritt hinzu, der den Sicherheitsschwellenwert anpasst und eine probabilistische Sicherheitsabdeckung mit endlicher Stichprobe bietet. Empirisch tauscht SafeFQL moderat höhere Offline-Trainingskosten gegen eine deutlich geringere Inferenzlatenz im Vergleich zu diffusionsbasierten sicheren generativen Baseline-Methoden ein, was für den Einsatz in sicherheitskritischen Echtzeitsystemen vorteilhaft ist. In Bootsnavigations- und Safety Gymnasium MuJoCo-Aufgaben erreicht oder übertrifft SafeFQL die bisherige Leistung von sicherem Offline-RL bei gleichzeitiger erheblicher Reduzierung von Regelverletzungen.
English
Offline safe reinforcement learning (RL) seeks reward-maximizing policies from static datasets under strict safety constraints. Existing methods often rely on soft expected-cost objectives or iterative generative inference, which can be insufficient for safety-critical real-time control. We propose Safe Flow Q-Learning (SafeFQL), which extends FQL to safe offline RL by combining a Hamilton--Jacobi reachability-inspired safety value function with an efficient one-step flow policy. SafeFQL learns the safety value via a self-consistency Bellman recursion, trains a flow policy by behavioral cloning, and distills it into a one-step actor for reward-maximizing safe action selection without rejection sampling at deployment. To account for finite-data approximation error in the learned safety boundary, we add a conformal prediction calibration step that adjusts the safety threshold and provides finite-sample probabilistic safety coverage. Empirically, SafeFQL trades modestly higher offline training cost for substantially lower inference latency than diffusion-style safe generative baselines, which is advantageous for real-time safety-critical deployment. Across boat navigation, and Safety Gymnasium MuJoCo tasks, SafeFQL matches or exceeds prior offline safe RL performance while substantially reducing constraint violations.