Representações de Valor Viscoso com Informação Física

Resumo

A aprendizagem por reforço offline condicionada por objetivos (GCRL) aprende políticas condicionadas por objetivos a partir de conjuntos de dados pré-coletados e estáticos. No entanto, a estimativa precisa de valor continua a ser um desafio devido à cobertura limitada do espaço estado-ação. Abordagens recentes com incorporação de conhecimento físico procuraram resolver isto impondo restrições físicas e geométricas na função de valor através de regularização definida sobre equações diferenciais parciais (EDPs) de primeira ordem, como a equação Eikonal. Contudo, estas formulações podem frequentemente ser mal colocadas em ambientes complexos e de alta dimensionalidade. Neste trabalho, propomos uma regularização com incorporação de conhecimento físico derivada da solução de viscosidade da equação de Hamilton-Jacobi-Bellman (HJB). Ao fornecer um *bias* indutivo baseado na física, a nossa abordagem ancora o processo de aprendizagem na teoria de controlo ótimo, regularizando e limitando explicitamente as atualizações durante as iterações de valor. Além disso, aproveitamos o teorema de Feynman-Kac para reformular a solução da EDP como uma expectativa, permitindo uma estimativa de Monte Carlo tratável do objetivo que evita a instabilidade numérica em gradientes de ordem superior. Experiências demonstram que o nosso método melhora a consistência geométrica, tornando-o amplamente aplicável a tarefas de navegação e de manipulação complexas e de alta dimensionalidade. Os códigos de fonte aberta estão disponíveis em https://github.com/HrishikeshVish/phys-fk-value-GCRL.

English

Offline goal-conditioned reinforcement learning (GCRL) learns goal-conditioned policies from static pre-collected datasets. However, accurate value estimation remains a challenge due to the limited coverage of the state-action space. Recent physics-informed approaches have sought to address this by imposing physical and geometric constraints on the value function through regularization defined over first-order partial differential equations (PDEs), such as the Eikonal equation. However, these formulations can often be ill-posed in complex, high-dimensional environments. In this work, we propose a physics-informed regularization derived from the viscosity solution of the Hamilton-Jacobi-Bellman (HJB) equation. By providing a physics-based inductive bias, our approach grounds the learning process in optimal control theory, explicitly regularizing and bounding updates during value iterations. Furthermore, we leverage the Feynman-Kac theorem to recast the PDE solution as an expectation, enabling a tractable Monte Carlo estimation of the objective that avoids numerical instability in higher-order gradients. Experiments demonstrate that our method improves geometric consistency, making it broadly applicable to navigation and high-dimensional, complex manipulation tasks. Open-source codes are available at https://github.com/HrishikeshVish/phys-fk-value-GCRL.

Representações de Valor Viscoso com Informação Física

Physics Informed Viscous Value Representations

Resumo

Support