Optiebewuste Tijdelijk Geabstraheerde Waarde voor Offline Doelgericht Versterkend Leren

Samenvatting

Offline doelgericht reinforcement learning (GCRL) biedt een praktisch leerparadigma waarbij beleidsregels voor het bereiken van doelen worden getraind op basis van overvloedige, ongelabelde (beloningsvrije) datasets zonder aanvullende interactie met de omgeving. Offline GCRL worstelt echter nog steeds met taken met een lange horizon, zelfs met recente vooruitgang die gebruikmaakt van hiërarchische beleidsstructuren, zoals HIQL. Door de oorzaak van deze uitdaging te identificeren, observeren we de volgende inzichten: Ten eerste ontstaan prestatieknelpunten vooral door het onvermogen van het hoogste beleidsniveau om geschikte subdoelen te genereren. Ten tweede wordt, bij het leren van het hoogste beleidsniveau in taken met een lange horizon, het teken van het voordeelsignaal vaak onjuist. Daarom stellen we dat het verbeteren van de waardefunctie om een duidelijk voordeelsignaal te produceren voor het leren van het hoogste beleidsniveau essentieel is. In dit paper stellen we een eenvoudige maar effectieve oplossing voor: Option-aware Temporally Abstracted value learning, genaamd OTA, dat temporele abstractie integreert in het temporele differentiële leerproces. Door de waardebijwerking aan te passen zodat deze optiebewust is, verkort het voorgestelde leerschema de effectieve horizonlengte, wat betere voordeelschattingen mogelijk maakt, zelfs in taken met een lange horizon. We tonen experimenteel aan dat het hoogste beleidsniveau dat wordt geëxtraheerd met behulp van de OTA-waardefunctie sterke prestaties behaalt op complexe taken uit OGBench, een recent voorgestelde offline GCRL-benchmark, waaronder navigatie in doolhoven en visuele robotmanipulatieomgevingen.

English

Offline goal-conditioned reinforcement learning (GCRL) offers a practical learning paradigm where goal-reaching policies are trained from abundant unlabeled (reward-free) datasets without additional environment interaction. However, offline GCRL still struggles with long-horizon tasks, even with recent advances that employ hierarchical policy structures, such as HIQL. By identifying the root cause of this challenge, we observe the following insights: First, performance bottlenecks mainly stem from the high-level policy's inability to generate appropriate subgoals. Second, when learning the high-level policy in the long-horizon regime, the sign of the advantage signal frequently becomes incorrect. Thus, we argue that improving the value function to produce a clear advantage signal for learning the high-level policy is essential. In this paper, we propose a simple yet effective solution: Option-aware Temporally Abstracted value learning, dubbed OTA, which incorporates temporal abstraction into the temporal-difference learning process. By modifying the value update to be option-aware, the proposed learning scheme contracts the effective horizon length, enabling better advantage estimates even in long-horizon regimes. We experimentally show that the high-level policy extracted using the OTA value function achieves strong performance on complex tasks from OGBench, a recently proposed offline GCRL benchmark, including maze navigation and visual robotic manipulation environments.

Optiebewuste Tijdelijk Geabstraheerde Waarde voor Offline Doelgericht Versterkend Leren

Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning

Samenvatting

Support