Valore Temporalmente Astratto Consapevole delle Opzioni per l'Apprendimento per Rinforzo Offline Condizionato agli Obiettivi
Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
May 19, 2025
Autori: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI
Abstract
L'apprendimento per rinforzo offline condizionato agli obiettivi (GCRL) offre un paradigma di apprendimento pratico in cui le politiche di raggiungimento degli obiettivi vengono addestrate da ampi dataset non etichettati (senza ricompensa) senza ulteriori interazioni con l'ambiente. Tuttavia, il GCRL offline continua a lottare con compiti a lungo termine, nonostante i recenti progressi che impiegano strutture gerarchiche di politiche, come HIQL. Identificando la causa principale di questa sfida, osserviamo le seguenti intuizioni: in primo luogo, i colli di bottiglia delle prestazioni derivano principalmente dall'incapacità della politica di alto livello di generare sottobiettivi appropriati. In secondo luogo, durante l'apprendimento della politica di alto livello in contesti a lungo termine, il segnale di vantaggio spesso diventa errato. Pertanto, sosteniamo che migliorare la funzione di valore per produrre un segnale di vantaggio chiaro per l'apprendimento della politica di alto livello sia essenziale. In questo articolo, proponiamo una soluzione semplice ma efficace: l'apprendimento del valore temporalmente astratto e consapevole delle opzioni, denominato OTA, che incorpora l'astrazione temporale nel processo di apprendimento a differenza temporale. Modificando l'aggiornamento del valore per renderlo consapevole delle opzioni, il metodo proposto riduce la lunghezza effettiva dell'orizzonte, consentendo stime migliori del vantaggio anche in contesti a lungo termine. Sperimentalmente dimostriamo che la politica di alto livello estratta utilizzando la funzione di valore OTA raggiunge prestazioni solide su compiti complessi di OGBench, un benchmark recentemente proposto per il GCRL offline, inclusi ambienti di navigazione in labirinti e manipolazione robotica visiva.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical
learning paradigm where goal-reaching policies are trained from abundant
unlabeled (reward-free) datasets without additional environment interaction.
However, offline GCRL still struggles with long-horizon tasks, even with recent
advances that employ hierarchical policy structures, such as HIQL. By
identifying the root cause of this challenge, we observe the following
insights: First, performance bottlenecks mainly stem from the high-level
policy's inability to generate appropriate subgoals. Second, when learning the
high-level policy in the long-horizon regime, the sign of the advantage signal
frequently becomes incorrect. Thus, we argue that improving the value function
to produce a clear advantage signal for learning the high-level policy is
essential. In this paper, we propose a simple yet effective solution:
Option-aware Temporally Abstracted value learning, dubbed OTA, which
incorporates temporal abstraction into the temporal-difference learning
process. By modifying the value update to be option-aware, the proposed
learning scheme contracts the effective horizon length, enabling better
advantage estimates even in long-horizon regimes. We experimentally show that
the high-level policy extracted using the OTA value function achieves strong
performance on complex tasks from OGBench, a recently proposed offline GCRL
benchmark, including maze navigation and visual robotic manipulation
environments.