Safe Flow Q-Learning : Apprentissage par Renforcement Sûr Hors Ligne avec des Politiques de Flux Basées sur l'Accessibilité
Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies
March 16, 2026
Auteurs: Mumuksh Tayal, Manan Tayal, Ravi Prakash
cs.AI
Résumé
L'apprentissage par renforcement (RL) hors ligne sûr vise à obtenir des politiques maximisant la récompense à partir de jeux de données statiques sous des contraintes de sécurité strictes. Les méthodes existantes reposent souvent sur des objectifs de coût espéré relaxés ou sur de l'inférence générative itérative, ce qui peut s'avérer insuffisant pour le contrôle en temps réel critique pour la sécurité. Nous proposons le Safe Flow Q-Learning (SafeFQL), qui étend le FQL au RL hors ligne sûr en combinant une fonction de valeur de sécurité inspirée de la reachabilité de Hamilton-Jacobi avec une politique de flux efficace en une étape. SafeFQL apprend la valeur de sécurité via une récursion de Bellman d'auto-cohérence, entraîne une politique de flux par clonage comportemental, et la distille en un acteur en une étape pour la sélection d'actions sûres maximisant la récompense, sans échantillonnage par rejet au déploiement. Pour tenir compte de l'erreur d'approximation due aux données finies sur la limite de sécurité apprise, nous ajoutons une étape de calibration par prédiction conformal qui ajuste le seuil de sécurité et fournit une couverture de sécurité probabiliste à échantillon fini. Empiriquement, SafeFQL échange un coût d'entraînement hors ligne modestement plus élevé contre une latence d'inférence substantiellement plus faible que les méthodes de référence génératives de type diffusion, ce qui est avantageux pour un déploiement en temps réel critique pour la sécurité. Sur des tâches de navigation de bateau et des tâches Safety Gymnasium MuJoCo, SafeFQL égale ou dépasse les performances antérieures du RL hors ligne sûr tout en réduisant considérablement les violations de contraintes.
English
Offline safe reinforcement learning (RL) seeks reward-maximizing policies from static datasets under strict safety constraints. Existing methods often rely on soft expected-cost objectives or iterative generative inference, which can be insufficient for safety-critical real-time control. We propose Safe Flow Q-Learning (SafeFQL), which extends FQL to safe offline RL by combining a Hamilton--Jacobi reachability-inspired safety value function with an efficient one-step flow policy. SafeFQL learns the safety value via a self-consistency Bellman recursion, trains a flow policy by behavioral cloning, and distills it into a one-step actor for reward-maximizing safe action selection without rejection sampling at deployment. To account for finite-data approximation error in the learned safety boundary, we add a conformal prediction calibration step that adjusts the safety threshold and provides finite-sample probabilistic safety coverage. Empirically, SafeFQL trades modestly higher offline training cost for substantially lower inference latency than diffusion-style safe generative baselines, which is advantageous for real-time safety-critical deployment. Across boat navigation, and Safety Gymnasium MuJoCo tasks, SafeFQL matches or exceeds prior offline safe RL performance while substantially reducing constraint violations.