Безопасный Q-обучение с потоковыми политиками: Оффлайн-обучение с подкреплением с гарантиями безопасности на основе потоковых политик достижимости

Аннотация

Офлайн-безопасное обучение с подкреплением (RL) ставит целью поиск политик, максимизирующих вознаграждение, из статических наборов данных при строгих ограничениях безопасности. Существующие методы часто опираются на мягкие ожидаемые стоимостные цели или итеративный генеративный вывод, что может быть недостаточным для критичных к безопасности систем реального времени. Мы предлагаем Safe Flow Q-Learning (SafeFQL), который расширяет FQL для безопасного офлайн-RL, комбинируя функцию ценности безопасности, вдохновленную теорией достижимости Гамильтона–Якоби, с эффективной потоковой политикой за один шаг. SafeFQL изучает ценность безопасности с помощью самосогласованной рекурсии Беллмана, обучает потоковую политику путем поведенческого клонирования и дистиллирует её в актора за один шаг для выбора действий, максимизирующих вознаграждение и обеспечивающих безопасность, без использования rejection sampling на этапе эксплуатации. Чтобы учесть ошибку аппроксимации из-за конечности данных в изученной границе безопасности, мы добавляем шаг калибровки с помощью конформного предсказания, который корректирует порог безопасности и обеспечивает вероятностное покрытие безопасности для конечных выборок. Экспериментально SafeFQL демонстрирует умеренно более высокую стоимость офлайн-обучения в обмен на существенно более низкую задержку вывода по сравнению с диффузионными безопасными генеративными базовыми методами, что является преимуществом для развертывания в реальном времени в критичных к безопасности системах. В задачах навигации лодки и в среде Safety Gymnasium MuJoCo SafeFQL соответствует или превосходит предыдущие показатели офлайн-безопасного RL, при этом значительно сокращая количество нарушений ограничений.

English

Offline safe reinforcement learning (RL) seeks reward-maximizing policies from static datasets under strict safety constraints. Existing methods often rely on soft expected-cost objectives or iterative generative inference, which can be insufficient for safety-critical real-time control. We propose Safe Flow Q-Learning (SafeFQL), which extends FQL to safe offline RL by combining a Hamilton--Jacobi reachability-inspired safety value function with an efficient one-step flow policy. SafeFQL learns the safety value via a self-consistency Bellman recursion, trains a flow policy by behavioral cloning, and distills it into a one-step actor for reward-maximizing safe action selection without rejection sampling at deployment. To account for finite-data approximation error in the learned safety boundary, we add a conformal prediction calibration step that adjusts the safety threshold and provides finite-sample probabilistic safety coverage. Empirically, SafeFQL trades modestly higher offline training cost for substantially lower inference latency than diffusion-style safe generative baselines, which is advantageous for real-time safety-critical deployment. Across boat navigation, and Safety Gymnasium MuJoCo tasks, SafeFQL matches or exceeds prior offline safe RL performance while substantially reducing constraint violations.

Безопасный Q-обучение с потоковыми политиками: Оффлайн-обучение с подкреплением с гарантиями безопасности на основе потоковых политик достижимости

Safe Flow Q-Learning: Offline Safe Reinforcement Learning with Reachability-Based Flow Policies

Аннотация

Support