Safe Flow Q-Learning: Apprendimento per Rinforzo Sicuro Offline con Politiche di Flusso Basate sulla Raggiungibilità

Abstract

L'apprendimento per rinforzo (RL) sicuro offline mira a individuare politiche che massimizzano la ricompensa a partire da dataset statici, sotto rigorosi vincoli di sicurezza. I metodi esistenti spesso si basano su obiettivi soft di costo atteso o su inferenza generativa iterativa, approcci che possono rivelarsi insufficienti per il controllo in tempo reale in contesti critici per la sicurezza. Proponiamo il Safe Flow Q-Learning (SafeFQL), che estende l'FQL all'RL sicuro offline combinando una funzione di valore della sicurezza ispirata alla raggiungibilità di Hamilton-Jacobi con una politica di flusso efficiente a un singolo passo. SafeFQL apprende il valore della sicurezza tramite una ricorsione di Bellman di auto-consistenza, addestra una politica di flusso mediante clonazione comportamentale e la distilla in un attore a un singolo passo per la selezione di azioni sicure che massimizzano la ricompensa, senza campionamento per rifiuto durante il deployment. Per tenere conto dell'errore di approssimazione nei dati finiti relativo al confine di sicurezza appreso, aggiungiamo una fase di calibrazione mediante prediction conformal che regola la soglia di sicurezza e fornisce una copertura probabilistica della sicurezza con campioni finiti. Empiricamente, SafeFQL scambia un costo di addestramento offline moderatamente più elevato con una latenza di inferenza sostanzialmente inferiore rispetto ai baseline generativi sicuri di tipo diffusion, il che è vantaggioso per il deployment in tempo reale in contesti critici per la sicurezza. In vari task, tra cui la navigazione di barche e quelli di Safety Gymnasium MuJoCo, SafeFQL eguaglia o supera le prestazioni precedenti dell'RL sicuro offline, riducendo al contempo sostanzialmente le violazioni dei vincoli.

English

Offline safe reinforcement learning (RL) seeks reward-maximizing policies from static datasets under strict safety constraints. Existing methods often rely on soft expected-cost objectives or iterative generative inference, which can be insufficient for safety-critical real-time control. We propose Safe Flow Q-Learning (SafeFQL), which extends FQL to safe offline RL by combining a Hamilton--Jacobi reachability-inspired safety value function with an efficient one-step flow policy. SafeFQL learns the safety value via a self-consistency Bellman recursion, trains a flow policy by behavioral cloning, and distills it into a one-step actor for reward-maximizing safe action selection without rejection sampling at deployment. To account for finite-data approximation error in the learned safety boundary, we add a conformal prediction calibration step that adjusts the safety threshold and provides finite-sample probabilistic safety coverage. Empirically, SafeFQL trades modestly higher offline training cost for substantially lower inference latency than diffusion-style safe generative baselines, which is advantageous for real-time safety-critical deployment. Across boat navigation, and Safety Gymnasium MuJoCo tasks, SafeFQL matches or exceeds prior offline safe RL performance while substantially reducing constraint violations.

Safe Flow Q-Learning: Apprendimento per Rinforzo Sicuro Offline con Politiche di Flusso Basate sulla Raggiungibilità

Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies

Abstract

Support