Safe Flow Q-Learning: Aprendizado por Reforço Seguro Offline com Políticas de Fluxo Baseadas em Alcance

Resumo

O aprendizado por reforço seguro offline (RL) busca políticas de maximização de recompensa a partir de conjuntos de dados estáticos sob restrições rígidas de segurança. Os métodos existentes frequentemente dependem de objetivos de custo esperado suavizados ou de inferência generativa iterativa, o que pode ser insuficiente para controle em tempo real crítico para segurança. Propomos o Safe Flow Q-Learning (SafeFQL), que estende o FQL para o RL seguro offline combinando uma função de valor de segurança inspirada na alcançabilidade de Hamilton-Jacobi com uma política de fluxo eficiente de uma única etapa. O SafeFQL aprende o valor de segurança via uma recursão de Bellman de auto-consistência, treina uma política de fluxo por clonagem comportamental e a destila em um ator de uma única etapa para seleção de ação segura de maximização de recompensa sem amostragem por rejeição na implantação. Para contabilizar o erro de aproximação de dados finitos no limite de segurança aprendido, adicionamos uma etapa de calibração por predição conformal que ajusta o limiar de segurança e fornece cobertura de segurança probabilística de amostra finita. Empiricamente, o SafeFQL troca um custo de treinamento offline moderadamente mais alto por uma latência de inferência substancialmente menor do que as linhas de base generativas seguras no estilo de difusão, o que é vantajoso para implantação crítica de segurança em tempo real. Em tarefas de navegação de barco e no Safety Gymnasium MuJoCo, o SafeFQL iguala ou supera o desempenho anterior do RL seguro offline enquanto reduz substancialmente as violações de restrição.

English

Offline safe reinforcement learning (RL) seeks reward-maximizing policies from static datasets under strict safety constraints. Existing methods often rely on soft expected-cost objectives or iterative generative inference, which can be insufficient for safety-critical real-time control. We propose Safe Flow Q-Learning (SafeFQL), which extends FQL to safe offline RL by combining a Hamilton--Jacobi reachability-inspired safety value function with an efficient one-step flow policy. SafeFQL learns the safety value via a self-consistency Bellman recursion, trains a flow policy by behavioral cloning, and distills it into a one-step actor for reward-maximizing safe action selection without rejection sampling at deployment. To account for finite-data approximation error in the learned safety boundary, we add a conformal prediction calibration step that adjusts the safety threshold and provides finite-sample probabilistic safety coverage. Empirically, SafeFQL trades modestly higher offline training cost for substantially lower inference latency than diffusion-style safe generative baselines, which is advantageous for real-time safety-critical deployment. Across boat navigation, and Safety Gymnasium MuJoCo tasks, SafeFQL matches or exceeds prior offline safe RL performance while substantially reducing constraint violations.

Safe Flow Q-Learning: Aprendizado por Reforço Seguro Offline com Políticas de Fluxo Baseadas em Alcance

Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies

Resumo

Support