Physik-informierte viskose Wertdarstellungen
Physics Informed Viscous Value Representations
February 26, 2026
Autoren: Hrishikesh Viswanath, Juanwu Lu, S. Talha Bukhari, Damon Conover, Ziran Wang, Aniket Bera
cs.AI
Zusammenfassung
Offline zielkonditioniertes bestärkendes Lernen (GCRL) erlernt zielkonditionierte Strategien aus statischen, vorab gesammelten Datensätzen. Allerdings bleibt eine genaue Werte-Schätzung aufgrund der begrenzten Abdeckung des Zustands-Aktions-Raums eine Herausforderung. Neuere physik-informierte Ansätze haben versucht, dies zu adressieren, indem sie physikalische und geometrische Zwangsbedingungen für die Wertfunktion durch Regularisierung definiert über partielle Differentialgleichungen (PDEs) erster Ordnung, wie beispielsweise die Eikonal-Gleichung, auferlegen. Diese Formulierungen können jedoch in komplexen, hochdimensionalen Umgebungen oft schlecht gestellt sein. In dieser Arbeit schlagen wir eine physik-informierte Regularisierung vor, die von der Viskositätslösung der Hamilton-Jacobi-Bellman (HJB)-Gleichung abgeleitet ist. Indem unser Ansatz eine physikalisch basierte induktive Verzerrung bereitstellt, verankert er den Lernprozess in der optimalen Steuerungstheorie und regularisiert sowie begrenzt Updates während der Wertiterationen explizit. Darüber hinaus nutzen wir das Feynman-Kac-Theorem, um die PDE-Lösung als einen Erwartungswert umzuformulieren, was eine handhabbare Monte-Carlo-Schätzung des Ziels ermöglicht, die numerische Instabilität in Gradienten höherer Ordnung vermeidet. Experimente zeigen, dass unsere Methode die geometrische Konsistenz verbessert und sie damit breit anwendbar für Navigations- sowie hochdimensionale, komplexe Manipulationsaufgaben macht. Der Open-Source-Code ist unter https://github.com/HrishikeshVish/phys-fk-value-GCRL verfügbar.
English
Offline goal-conditioned reinforcement learning (GCRL) learns goal-conditioned policies from static pre-collected datasets. However, accurate value estimation remains a challenge due to the limited coverage of the state-action space. Recent physics-informed approaches have sought to address this by imposing physical and geometric constraints on the value function through regularization defined over first-order partial differential equations (PDEs), such as the Eikonal equation. However, these formulations can often be ill-posed in complex, high-dimensional environments. In this work, we propose a physics-informed regularization derived from the viscosity solution of the Hamilton-Jacobi-Bellman (HJB) equation. By providing a physics-based inductive bias, our approach grounds the learning process in optimal control theory, explicitly regularizing and bounding updates during value iterations. Furthermore, we leverage the Feynman-Kac theorem to recast the PDE solution as an expectation, enabling a tractable Monte Carlo estimation of the objective that avoids numerical instability in higher-order gradients. Experiments demonstrate that our method improves geometric consistency, making it broadly applicable to navigation and high-dimensional, complex manipulation tasks. Open-source codes are available at https://github.com/HrishikeshVish/phys-fk-value-GCRL.