Optiebewuste Tijdelijk Geabstraheerde Waarde voor Offline Doelgericht Versterkend Leren
Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
May 19, 2025
Auteurs: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI
Samenvatting
Offline doelgericht reinforcement learning (GCRL) biedt een praktisch leerparadigma waarbij beleidsregels voor het bereiken van doelen worden getraind op basis van overvloedige, ongelabelde (beloningsvrije) datasets zonder aanvullende interactie met de omgeving. Offline GCRL worstelt echter nog steeds met taken met een lange horizon, zelfs met recente vooruitgang die gebruikmaakt van hiërarchische beleidsstructuren, zoals HIQL. Door de oorzaak van deze uitdaging te identificeren, observeren we de volgende inzichten: Ten eerste ontstaan prestatieknelpunten vooral door het onvermogen van het hoogste beleidsniveau om geschikte subdoelen te genereren. Ten tweede wordt, bij het leren van het hoogste beleidsniveau in taken met een lange horizon, het teken van het voordeelsignaal vaak onjuist. Daarom stellen we dat het verbeteren van de waardefunctie om een duidelijk voordeelsignaal te produceren voor het leren van het hoogste beleidsniveau essentieel is. In dit paper stellen we een eenvoudige maar effectieve oplossing voor: Option-aware Temporally Abstracted value learning, genaamd OTA, dat temporele abstractie integreert in het temporele differentiële leerproces. Door de waardebijwerking aan te passen zodat deze optiebewust is, verkort het voorgestelde leerschema de effectieve horizonlengte, wat betere voordeelschattingen mogelijk maakt, zelfs in taken met een lange horizon. We tonen experimenteel aan dat het hoogste beleidsniveau dat wordt geëxtraheerd met behulp van de OTA-waardefunctie sterke prestaties behaalt op complexe taken uit OGBench, een recent voorgestelde offline GCRL-benchmark, waaronder navigatie in doolhoven en visuele robotmanipulatieomgevingen.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical
learning paradigm where goal-reaching policies are trained from abundant
unlabeled (reward-free) datasets without additional environment interaction.
However, offline GCRL still struggles with long-horizon tasks, even with recent
advances that employ hierarchical policy structures, such as HIQL. By
identifying the root cause of this challenge, we observe the following
insights: First, performance bottlenecks mainly stem from the high-level
policy's inability to generate appropriate subgoals. Second, when learning the
high-level policy in the long-horizon regime, the sign of the advantage signal
frequently becomes incorrect. Thus, we argue that improving the value function
to produce a clear advantage signal for learning the high-level policy is
essential. In this paper, we propose a simple yet effective solution:
Option-aware Temporally Abstracted value learning, dubbed OTA, which
incorporates temporal abstraction into the temporal-difference learning
process. By modifying the value update to be option-aware, the proposed
learning scheme contracts the effective horizon length, enabling better
advantage estimates even in long-horizon regimes. We experimentally show that
the high-level policy extracted using the OTA value function achieves strong
performance on complex tasks from OGBench, a recently proposed offline GCRL
benchmark, including maze navigation and visual robotic manipulation
environments.