Représentations de Valeur Visqueuse Informées par la Physique
Physics Informed Viscous Value Representations
February 26, 2026
Auteurs: Hrishikesh Viswanath, Juanwu Lu, S. Talha Bukhari, Damon Conover, Ziran Wang, Aniket Bera
cs.AI
Résumé
L'apprentissage par renforcement hors ligne conditionné par objectifs (GCRL) apprend des politiques conditionnées par des objectifs à partir de jeux de données statiques pré-collectés. Cependant, l'estimation précise de la valeur reste un défi en raison de la couverture limitée de l'espace d'état-action. Des approches récentes intégrant des connaissances physiques ont cherché à résoudre ce problème en imposant des contraintes physiques et géométriques à la fonction de valeur via une régularisation définie sur des équations aux dérivées partielles (EDP) du premier ordre, telles que l'équation d'Eikonal. Cependant, ces formulations peuvent souvent être mal posées dans des environnements complexes et de haute dimension. Dans ce travail, nous proposons une régularisation informée par la physique, dérivée de la solution de viscosité de l'équation de Hamilton-Jacobi-Bellman (HJB). En fournissant un biais inductif basé sur la physique, notre approche ancre le processus d'apprentissage dans la théorie du contrôle optimal, régularisant et bornant explicitement les mises à jour durant les itérations sur la valeur. De plus, nous exploitons le théorème de Feynman-Kac pour reformuler la solution de l'EDP comme une espérance, permettant une estimation Monte Carlo traitable de l'objectif qui évite l'instabilité numérique dans les gradients d'ordre supérieur. Les expériences démontrent que notre méthode améliore la cohérence géométrique, la rendant largement applicable à la navigation et à des tâches de manipulation complexes et de haute dimension. Les codes sources sont disponibles à l'adresse https://github.com/HrishikeshVish/phys-fk-value-GCRL.
English
Offline goal-conditioned reinforcement learning (GCRL) learns goal-conditioned policies from static pre-collected datasets. However, accurate value estimation remains a challenge due to the limited coverage of the state-action space. Recent physics-informed approaches have sought to address this by imposing physical and geometric constraints on the value function through regularization defined over first-order partial differential equations (PDEs), such as the Eikonal equation. However, these formulations can often be ill-posed in complex, high-dimensional environments. In this work, we propose a physics-informed regularization derived from the viscosity solution of the Hamilton-Jacobi-Bellman (HJB) equation. By providing a physics-based inductive bias, our approach grounds the learning process in optimal control theory, explicitly regularizing and bounding updates during value iterations. Furthermore, we leverage the Feynman-Kac theorem to recast the PDE solution as an expectation, enabling a tractable Monte Carlo estimation of the objective that avoids numerical instability in higher-order gradients. Experiments demonstrate that our method improves geometric consistency, making it broadly applicable to navigation and high-dimensional, complex manipulation tasks. Open-source codes are available at https://github.com/HrishikeshVish/phys-fk-value-GCRL.