ChatPaper.aiChatPaper

Option-bewusster zeitlich abstrahierter Wert für offline zielbedingtes bestärkendes Lernen

Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning

May 19, 2025
Autoren: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI

Zusammenfassung

Offline zielbedingtes Reinforcement Learning (GCRL) bietet ein praktisches Lernparadigma, bei dem zielerreichende Strategien aus umfangreichen, ungelabelten (belohnungsfreien) Datensätzen trainiert werden, ohne zusätzliche Interaktion mit der Umgebung. Dennoch kämpft Offline-GCRL weiterhin mit langfristigen Aufgaben, selbst bei jüngsten Fortschritten, die hierarchische Policy-Strukturen wie HIQL verwenden. Durch die Identifizierung der Ursache dieser Herausforderung ergeben sich folgende Erkenntnisse: Erstens entstehen Leistungsengpässe hauptsächlich aus der Unfähigkeit der übergeordneten Policy, geeignete Teilziele zu generieren. Zweitens wird beim Lernen der übergeordneten Policy im langfristigen Regime das Vorzeichen des Vorteilssignals häufig falsch. Daher argumentieren wir, dass die Verbesserung der Wertfunktion, um ein klares Vorteilssignal für das Lernen der übergeordneten Policy zu erzeugen, entscheidend ist. In diesem Artikel schlagen wir eine einfache, aber effektive Lösung vor: Option-aware Temporally Abstracted Value Learning, kurz OTA, das zeitliche Abstraktion in den Temporal-Difference-Lernprozess integriert. Durch die Anpassung der Wertaktualisierung, um optionenbewusst zu sein, verkürzt das vorgeschlagene Lernschema den effektiven Zeithorizont und ermöglicht bessere Vorteilsschätzungen selbst im langfristigen Regime. Experimentell zeigen wir, dass die mit der OTA-Wertfunktion extrahierte übergeordnete Policy starke Leistungen bei komplexen Aufgaben aus OGBench, einem kürzlich vorgeschlagenen Offline-GCRL-Benchmark, erzielt, einschließlich Labyrinthnavigation und visuellen Roboter-Manipulationsumgebungen.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical learning paradigm where goal-reaching policies are trained from abundant unlabeled (reward-free) datasets without additional environment interaction. However, offline GCRL still struggles with long-horizon tasks, even with recent advances that employ hierarchical policy structures, such as HIQL. By identifying the root cause of this challenge, we observe the following insights: First, performance bottlenecks mainly stem from the high-level policy's inability to generate appropriate subgoals. Second, when learning the high-level policy in the long-horizon regime, the sign of the advantage signal frequently becomes incorrect. Thus, we argue that improving the value function to produce a clear advantage signal for learning the high-level policy is essential. In this paper, we propose a simple yet effective solution: Option-aware Temporally Abstracted value learning, dubbed OTA, which incorporates temporal abstraction into the temporal-difference learning process. By modifying the value update to be option-aware, the proposed learning scheme contracts the effective horizon length, enabling better advantage estimates even in long-horizon regimes. We experimentally show that the high-level policy extracted using the OTA value function achieves strong performance on complex tasks from OGBench, a recently proposed offline GCRL benchmark, including maze navigation and visual robotic manipulation environments.

Summary

AI-Generated Summary

PDF12May 27, 2025