Representaciones de Valor Viscosas Informadas por la Física

Resumen

El aprendizaje por refuerzo fuera de línea condicionado por objetivos (GCRL, por sus siglas en inglés) aprende políticas condicionadas por objetivos a partir de conjuntos de datos estáticos previamente recopilados. Sin embargo, la estimación precisa del valor sigue siendo un desafío debido a la cobertura limitada del espacio de estados-acciones. Enfoques recientes basados en física han intentado abordar este problema imponiendo restricciones físicas y geométricas en la función de valor mediante regularización definida sobre ecuaciones diferenciales parciales (EDPs) de primer orden, como la ecuación Eikonal. Sin embargo, estas formulaciones a menudo pueden estar mal planteadas en entornos complejos y de alta dimensionalidad. En este trabajo, proponemos una regularización basada en física derivada de la solución de viscosidad de la ecuación de Hamilton-Jacobi-Bellman (HJB). Al proporcionar un sesgo inductivo basado en física, nuestro método fundamenta el proceso de aprendizaje en la teoría de control óptimo, regularizando y acotando explícitamente las actualizaciones durante las iteraciones de valor. Además, aprovechamos el teorema de Feynman-Kac para reformular la solución de la EDP como una expectativa, permitiendo una estimación manejable de Monte Carlo del objetivo que evita la inestabilidad numérica en gradientes de orden superior. Los experimentos demuestran que nuestro método mejora la consistencia geométrica, haciéndolo ampliamente aplicable a tareas de navegación y de manipulación complejas y de alta dimensionalidad. El código de fuente abierta está disponible en https://github.com/HrishikeshVish/phys-fk-value-GCRL.

English

Offline goal-conditioned reinforcement learning (GCRL) learns goal-conditioned policies from static pre-collected datasets. However, accurate value estimation remains a challenge due to the limited coverage of the state-action space. Recent physics-informed approaches have sought to address this by imposing physical and geometric constraints on the value function through regularization defined over first-order partial differential equations (PDEs), such as the Eikonal equation. However, these formulations can often be ill-posed in complex, high-dimensional environments. In this work, we propose a physics-informed regularization derived from the viscosity solution of the Hamilton-Jacobi-Bellman (HJB) equation. By providing a physics-based inductive bias, our approach grounds the learning process in optimal control theory, explicitly regularizing and bounding updates during value iterations. Furthermore, we leverage the Feynman-Kac theorem to recast the PDE solution as an expectation, enabling a tractable Monte Carlo estimation of the objective that avoids numerical instability in higher-order gradients. Experiments demonstrate that our method improves geometric consistency, making it broadly applicable to navigation and high-dimensional, complex manipulation tasks. Open-source codes are available at https://github.com/HrishikeshVish/phys-fk-value-GCRL.

Representaciones de Valor Viscosas Informadas por la Física

Physics Informed Viscous Value Representations

Resumen

Support