Rappresentazioni Viscose del Valore Informate dalla Fisica

Abstract

L'apprendimento per rinforzo offline condizionato all'obiettivo (GCRL) apprende politiche condizionate all'obiettivo da dataset statici pre-acquisiti. Tuttavia, una stima accurata del valore rimane una sfida a causa della copertura limitata dello spazio stato-azione. Recenti approcci basati sulla fisica hanno cercato di affrontare questo problema imponendo vincoli fisici e geometrici sulla funzione valore attraverso una regolarizzazione definita su equazioni alle derivate parziali (PDE) del primo ordine, come l'equazione di Eikonal. Tuttavia, queste formulazioni possono spesso essere mal poste in ambienti complessi e ad alta dimensionalità. In questo lavoro, proponiamo una regolarizzazione basata sulla fisica derivata dalla soluzione di viscosità dell'equazione di Hamilton-Jacobi-Bellman (HJB). Fornendo un bias induttivo basato sulla fisica, il nostro approccio ancorà il processo di apprendimento alla teoria del controllo ottimo, regolarizzando e delimitando esplicitamente gli aggiornamenti durante le iterazioni del valore. Inoltre, sfruttiamo il teorema di Feynman-Kac per riformulare la soluzione della PDE come un'aspettativa, abilitando una trattabile stima Monte Carlo dell'obiettivo che evita l'instabilità numerica nei gradienti di ordine superiore. Gli esperimenti dimostrano che il nostro metodo migliora la consistenza geometrica, rendendolo ampiamente applicabile a compiti di navigazione e di manipolazione complessi e ad alta dimensionalità. I codici open-source sono disponibili su https://github.com/HrishikeshVish/phys-fk-value-GCRL.

English

Offline goal-conditioned reinforcement learning (GCRL) learns goal-conditioned policies from static pre-collected datasets. However, accurate value estimation remains a challenge due to the limited coverage of the state-action space. Recent physics-informed approaches have sought to address this by imposing physical and geometric constraints on the value function through regularization defined over first-order partial differential equations (PDEs), such as the Eikonal equation. However, these formulations can often be ill-posed in complex, high-dimensional environments. In this work, we propose a physics-informed regularization derived from the viscosity solution of the Hamilton-Jacobi-Bellman (HJB) equation. By providing a physics-based inductive bias, our approach grounds the learning process in optimal control theory, explicitly regularizing and bounding updates during value iterations. Furthermore, we leverage the Feynman-Kac theorem to recast the PDE solution as an expectation, enabling a tractable Monte Carlo estimation of the objective that avoids numerical instability in higher-order gradients. Experiments demonstrate that our method improves geometric consistency, making it broadly applicable to navigation and high-dimensional, complex manipulation tasks. Open-source codes are available at https://github.com/HrishikeshVish/phys-fk-value-GCRL.

Rappresentazioni Viscose del Valore Informate dalla Fisica

Physics Informed Viscous Value Representations

Abstract

Support