Физически информированные вязкостные представления значений

Аннотация

Офлайн-обучение с подкреплением, обусловленное целями (GCRL), изучает политики, зависящие от целей, по статическим заранее собранным наборам данных. Однако точная оценка ценности остается сложной задачей из-за ограниченного охвата пространства состояний и действий. Недавние физически информированные подходы попытались решить эту проблему, накладывая физические и геометрические ограничения на функцию ценности с помощью регуляризации, определенной через дифференциальные уравнения в частных производных (ДУЧП) первого порядка, такие как уравнение Эйконала. Однако такие формулировки часто могут быть некорректно поставленными в сложных, высокоразмерных средах. В данной работе мы предлагаем физически информированную регуляризацию, выведенную из вязкостного решения уравнения Гамильтона-Якоби-Беллмана (HJB). Предоставляя физически обоснованное индуктивное смещение, наш подход основывает процесс обучения на теории оптимального управления, явно регулируя и ограничивая обновления в ходе итераций по оценке ценности. Кроме того, мы используем теорему Фейнмана-Кака, чтобы переформулировать решение ДУЧП как математическое ожидание, что позволяет получить вычислимо осуществимую оценку целевой функции методом Монте-Карло, избегая численной неустойчивости при вычислении градиентов высшего порядка. Эксперименты демонстрируют, что наш метод улучшает геометрическую согласованность, делая его широко применимым для задач навигации и сложных манипуляционных задач высокой размерности. Исходные коды доступны по адресу https://github.com/HrishikeshVish/phys-fk-value-GCRL.

English

Offline goal-conditioned reinforcement learning (GCRL) learns goal-conditioned policies from static pre-collected datasets. However, accurate value estimation remains a challenge due to the limited coverage of the state-action space. Recent physics-informed approaches have sought to address this by imposing physical and geometric constraints on the value function through regularization defined over first-order partial differential equations (PDEs), such as the Eikonal equation. However, these formulations can often be ill-posed in complex, high-dimensional environments. In this work, we propose a physics-informed regularization derived from the viscosity solution of the Hamilton-Jacobi-Bellman (HJB) equation. By providing a physics-based inductive bias, our approach grounds the learning process in optimal control theory, explicitly regularizing and bounding updates during value iterations. Furthermore, we leverage the Feynman-Kac theorem to recast the PDE solution as an expectation, enabling a tractable Monte Carlo estimation of the objective that avoids numerical instability in higher-order gradients. Experiments demonstrate that our method improves geometric consistency, making it broadly applicable to navigation and high-dimensional, complex manipulation tasks. Open-source codes are available at https://github.com/HrishikeshVish/phys-fk-value-GCRL.

Физически информированные вязкостные представления значений

Physics Informed Viscous Value Representations

Аннотация

Support