ChatPaper.aiChatPaper

물리 정보 기반 점성 값 표현

Physics Informed Viscous Value Representations

February 26, 2026
저자: Hrishikesh Viswanath, Juanwu Lu, S. Talha Bukhari, Damon Conover, Ziran Wang, Aniket Bera
cs.AI

초록

오프라인 목표 조건 강화 학습(GCRL)은 정적으로 미리 수집된 데이터셋으로부터 목표 조건 정책을 학습합니다. 그러나 상태-행동 공간의 제한된 커버리지로 인해 정확한 가치 추정은 여전히 과제로 남아 있습니다. 최근 물리 정보 기반 접근법들은 아이코널 방정식과 같은 1계 편미분 방정식(PDE)을 통해 정의된 정규화를 통해 가치 함수에 물리적 및 기하학적 제약을 부여함으로써 이 문제를 해결하고자 시도해왔습니다. 하지만 이러한 공식화는 복잡한 고차원 환경에서 종종 잘못 설정될 수 있습니다. 본 연구에서는 해밀턴-자코비-벨만(HJB) 방정식의 점성 해로부터 유도된 물리 정보 정규화를 제안합니다. 물리 기반 유도 편향을 제공함으로써, 우리의 접근법은 학습 과정을 최적 제어 이론에 기반하게 하여 가치 반복 중 업데이트를 명시적으로 정규화하고 경계짓습니다. 더 나아가, 파인만-카크 정리를 활용하여 PDE 해를 기대값으로 재구성함으로써 고차 미분에서 수치적 불안정성을 회피하는 실용적인 몬테카를로 목적함수 추정을 가능하게 합니다. 실험 결과, 우리의 방법이 기하학적 일관성을 향상시켜 내비게이션 및 고차원 복잡 조작 작업에 광범위하게 적용 가능함을 입증합니다. 오픈소스 코드는 https://github.com/HrishikeshVish/phys-fk-value-GCRL에서 확인할 수 있습니다.
English
Offline goal-conditioned reinforcement learning (GCRL) learns goal-conditioned policies from static pre-collected datasets. However, accurate value estimation remains a challenge due to the limited coverage of the state-action space. Recent physics-informed approaches have sought to address this by imposing physical and geometric constraints on the value function through regularization defined over first-order partial differential equations (PDEs), such as the Eikonal equation. However, these formulations can often be ill-posed in complex, high-dimensional environments. In this work, we propose a physics-informed regularization derived from the viscosity solution of the Hamilton-Jacobi-Bellman (HJB) equation. By providing a physics-based inductive bias, our approach grounds the learning process in optimal control theory, explicitly regularizing and bounding updates during value iterations. Furthermore, we leverage the Feynman-Kac theorem to recast the PDE solution as an expectation, enabling a tractable Monte Carlo estimation of the objective that avoids numerical instability in higher-order gradients. Experiments demonstrate that our method improves geometric consistency, making it broadly applicable to navigation and high-dimensional, complex manipulation tasks. Open-source codes are available at https://github.com/HrishikeshVish/phys-fk-value-GCRL.
PDF12May 8, 2026