Option-bewusster zeitlich abstrahierter Wert für offline zielbedingtes bestärkendes Lernen
Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
May 19, 2025
Autoren: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI
Zusammenfassung
Offline zielbedingtes Reinforcement Learning (GCRL) bietet ein praktisches Lernparadigma, bei dem zielerreichende Strategien aus umfangreichen, ungelabelten (belohnungsfreien) Datensätzen trainiert werden, ohne zusätzliche Interaktion mit der Umgebung. Dennoch kämpft Offline-GCRL weiterhin mit langfristigen Aufgaben, selbst bei jüngsten Fortschritten, die hierarchische Policy-Strukturen wie HIQL verwenden. Durch die Identifizierung der Ursache dieser Herausforderung ergeben sich folgende Erkenntnisse: Erstens entstehen Leistungsengpässe hauptsächlich aus der Unfähigkeit der übergeordneten Policy, geeignete Teilziele zu generieren. Zweitens wird beim Lernen der übergeordneten Policy im langfristigen Regime das Vorzeichen des Vorteilssignals häufig falsch. Daher argumentieren wir, dass die Verbesserung der Wertfunktion, um ein klares Vorteilssignal für das Lernen der übergeordneten Policy zu erzeugen, entscheidend ist. In diesem Artikel schlagen wir eine einfache, aber effektive Lösung vor: Option-aware Temporally Abstracted Value Learning, kurz OTA, das zeitliche Abstraktion in den Temporal-Difference-Lernprozess integriert. Durch die Anpassung der Wertaktualisierung, um optionenbewusst zu sein, verkürzt das vorgeschlagene Lernschema den effektiven Zeithorizont und ermöglicht bessere Vorteilsschätzungen selbst im langfristigen Regime. Experimentell zeigen wir, dass die mit der OTA-Wertfunktion extrahierte übergeordnete Policy starke Leistungen bei komplexen Aufgaben aus OGBench, einem kürzlich vorgeschlagenen Offline-GCRL-Benchmark, erzielt, einschließlich Labyrinthnavigation und visuellen Roboter-Manipulationsumgebungen.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical
learning paradigm where goal-reaching policies are trained from abundant
unlabeled (reward-free) datasets without additional environment interaction.
However, offline GCRL still struggles with long-horizon tasks, even with recent
advances that employ hierarchical policy structures, such as HIQL. By
identifying the root cause of this challenge, we observe the following
insights: First, performance bottlenecks mainly stem from the high-level
policy's inability to generate appropriate subgoals. Second, when learning the
high-level policy in the long-horizon regime, the sign of the advantage signal
frequently becomes incorrect. Thus, we argue that improving the value function
to produce a clear advantage signal for learning the high-level policy is
essential. In this paper, we propose a simple yet effective solution:
Option-aware Temporally Abstracted value learning, dubbed OTA, which
incorporates temporal abstraction into the temporal-difference learning
process. By modifying the value update to be option-aware, the proposed
learning scheme contracts the effective horizon length, enabling better
advantage estimates even in long-horizon regimes. We experimentally show that
the high-level policy extracted using the OTA value function achieves strong
performance on complex tasks from OGBench, a recently proposed offline GCRL
benchmark, including maze navigation and visual robotic manipulation
environments.Summary
AI-Generated Summary