Safe Flow Q-Learning: 到達可能性解析に基づくフローポリシーを用いたオフライン安全強化学習
Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies
March 16, 2026
著者: Mumuksh Tayal, Manan Tayal, Ravi Prakash
cs.AI
要旨
オフライン安全強化学習(RL)は、厳格な安全制約の下で静的データセットから報酬を最大化する方策を求める。既存手法は、ソフトな期待コスト目的関数や反復的生成推論に依存することが多いが、安全性がクリティカルなリアルタイム制御には不十分な場合がある。本論文では、FQLを安全なオフラインRLに拡張したSafe Flow Q-Learning (SafeFQL) を提案する。SafeFQLは、ハミルトン-ヤコビ到達可能性解析に着想を得た安全価値関数と、効率的なワンステップフロー方策を組み合わせる。SafeFQLは、自己無撞着性ベルマン再帰により安全価値を学習し、行動クローニングによりフロー方策を訓練し、それをワンステップのアクターに蒸留して、デプロイ時に棄却サンプリングなしで報酬最大化かつ安全な行動選択を実現する。学習された安全境界における有限データ近似誤差を考慮するため、コンフォーマル予測による較正ステップを追加し、安全しきい値を調整して有限サンプルにおける確率的安全保証を提供する。実験により、SafeFQLは、拡散型の安全生成ベースラインと比較して、オフライン訓練コストがわずかに高い代わりに、推論レイテンシを大幅に低減でき、リアルタイムの安全クリティカルなデプロイに有利であることが示された。ボート航行およびSafety Gymnasium MuJoCoタスクにおいて、SafeFQLは従来のオフライン安全RLの性能を同等以上に維持しつつ、制約違反を大幅に減少させた。
English
Offline safe reinforcement learning (RL) seeks reward-maximizing policies from static datasets under strict safety constraints. Existing methods often rely on soft expected-cost objectives or iterative generative inference, which can be insufficient for safety-critical real-time control. We propose Safe Flow Q-Learning (SafeFQL), which extends FQL to safe offline RL by combining a Hamilton--Jacobi reachability-inspired safety value function with an efficient one-step flow policy. SafeFQL learns the safety value via a self-consistency Bellman recursion, trains a flow policy by behavioral cloning, and distills it into a one-step actor for reward-maximizing safe action selection without rejection sampling at deployment. To account for finite-data approximation error in the learned safety boundary, we add a conformal prediction calibration step that adjusts the safety threshold and provides finite-sample probabilistic safety coverage. Empirically, SafeFQL trades modestly higher offline training cost for substantially lower inference latency than diffusion-style safe generative baselines, which is advantageous for real-time safety-critical deployment. Across boat navigation, and Safety Gymnasium MuJoCo tasks, SafeFQL matches or exceeds prior offline safe RL performance while substantially reducing constraint violations.