Veilige Flow Q-Leren: Offline Veilige Versterkingsleren met Bereikbaarheidsgebaseerde Flow-beleidsregels
Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies
March 16, 2026
Auteurs: Mumuksh Tayal, Manan Tayal, Ravi Prakash
cs.AI
Samenvatting
Offline veilige reinforcement learning (RL) streeft naar beloningmaximaliserende beleidsregels uit statische datasets onder strikte veiligheidsbeperkingen. Bestaande methoden vertrouwen vaak op zachte verwachtingskosten-doelstellingen of iteratieve generatieve inferentie, wat ontoereikend kan zijn voor veiligheidskritische realtime-regeling. Wij stellen Veilige Flow Q-Learning (SafeFQL) voor, dat FQL uitbreidt naar offline veilige RL door een veiligheidswaardefunctie, geïnspireerd op Hamilton-Jacobi-bereikbaarheid, te combineren met een efficiënt één-staps flowbeleid. SafeFQL leert de veiligheidswaarde via een zelfconsistentie-Bellman-recursie, traint een flowbeleid door gedragsklonen, en destilleert dit tot een één-staps actor voor beloningmaximaliserende veilige actieselectie zonder afkeuringssteekproef tijdens implementatie. Om rekening te houden met eindige-data-approximatiefouten in de geleerde veiligheidsgrens, voegen we een conformal prediction-kalibratiestap toe die de veiligheidsdrempel aanpast en eindige-steekproef probabilistische veiligheidsdekking biedt. Empirisch gezien verruilt SafeFQL een bescheiden hogere offline trainingskost voor een aanzienlijk lagere inferentielatentie dan diffusion-style veilige generatieve baseline-methoden, wat voordelig is voor veiligheidskritische realtime-implementatie. Over bootnavigatie- en Safety Gymnasium MuJoCo-taken heen evenaart of overtreft SafeFQL eerdere offline veilige RL-prestaties terwijl het overtredingen van beperkingen aanzienlijk reduceert.
English
Offline safe reinforcement learning (RL) seeks reward-maximizing policies from static datasets under strict safety constraints. Existing methods often rely on soft expected-cost objectives or iterative generative inference, which can be insufficient for safety-critical real-time control. We propose Safe Flow Q-Learning (SafeFQL), which extends FQL to safe offline RL by combining a Hamilton--Jacobi reachability-inspired safety value function with an efficient one-step flow policy. SafeFQL learns the safety value via a self-consistency Bellman recursion, trains a flow policy by behavioral cloning, and distills it into a one-step actor for reward-maximizing safe action selection without rejection sampling at deployment. To account for finite-data approximation error in the learned safety boundary, we add a conformal prediction calibration step that adjusts the safety threshold and provides finite-sample probabilistic safety coverage. Empirically, SafeFQL trades modestly higher offline training cost for substantially lower inference latency than diffusion-style safe generative baselines, which is advantageous for real-time safety-critical deployment. Across boat navigation, and Safety Gymnasium MuJoCo tasks, SafeFQL matches or exceeds prior offline safe RL performance while substantially reducing constraint violations.