Safe Flow Q-Learning: Aprendizaje por Refuerzo Seguro sin Interacción con Políticas de Flujo Basadas en Alcanzabilidad

Resumen

El aprendizaje por refuerzo seguro sin conexión (RL) busca políticas que maximicen la recompensa a partir de conjuntos de datos estáticos bajo estrictas restricciones de seguridad. Los métodos existentes a menudo dependen de objetivos de coste esperado suavizados o de inferencia generativa iterativa, lo que puede ser insuficiente para el control en tiempo real crítico para la seguridad. Proponemos Safe Flow Q-Learning (SafeFQL), que extiende FQL al RL seguro sin conexión combinando una función de valor de seguridad inspirada en la alcanzabilidad de Hamilton-Jacobi con una política de flujo eficiente de un solo paso. SafeFQL aprende el valor de seguridad mediante una recursión de Bellman de auto-consistencia, entrena una política de flujo mediante clonación del comportamiento y la destila en un actor de un solo paso para la selección de acciones seguras que maximizan la recompensa sin necesidad de muestreo por rechazo durante el despliegue. Para tener en cuenta el error de aproximación de datos finitos en el límite de seguridad aprendido, añadimos un paso de calibración por predicción conformada que ajusta el umbral de seguridad y proporciona una cobertura de seguridad probabilística para muestras finitas. Empíricamente, SafeFLOG intercambia un coste de entrenamiento sin conexión modestamente mayor por una latencia de inferencia sustancialmente menor en comparación con los métodos base generativos seguros de tipo difusión, lo que es ventajoso para el despliegue en tiempo real crítico para la seguridad. En tareas de navegación de barcos y Safety Gymnasium MuJoCo, SafeFLOG iguala o supera el rendimiento previo del RL seguro sin conexión mientras reduce sustancialmente las violaciones de las restricciones.

English

Offline safe reinforcement learning (RL) seeks reward-maximizing policies from static datasets under strict safety constraints. Existing methods often rely on soft expected-cost objectives or iterative generative inference, which can be insufficient for safety-critical real-time control. We propose Safe Flow Q-Learning (SafeFQL), which extends FQL to safe offline RL by combining a Hamilton--Jacobi reachability-inspired safety value function with an efficient one-step flow policy. SafeFQL learns the safety value via a self-consistency Bellman recursion, trains a flow policy by behavioral cloning, and distills it into a one-step actor for reward-maximizing safe action selection without rejection sampling at deployment. To account for finite-data approximation error in the learned safety boundary, we add a conformal prediction calibration step that adjusts the safety threshold and provides finite-sample probabilistic safety coverage. Empirically, SafeFQL trades modestly higher offline training cost for substantially lower inference latency than diffusion-style safe generative baselines, which is advantageous for real-time safety-critical deployment. Across boat navigation, and Safety Gymnasium MuJoCo tasks, SafeFQL matches or exceeds prior offline safe RL performance while substantially reducing constraint violations.

Safe Flow Q-Learning: Aprendizaje por Refuerzo Seguro sin Interacción con Políticas de Flujo Basadas en Alcanzabilidad

Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies

Resumen

Support