Valeur Temporellement Abstraite Consciente des Options pour l'Apprentissage par Renforcement Hors Ligne Conditionné par des Objectifs
Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
May 19, 2025
Auteurs: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI
Résumé
L'apprentissage par renforcement hors ligne conditionné par objectifs (GCRL) propose un paradigme d'apprentissage pratique où les politiques de réalisation d'objectifs sont entraînées à partir de vastes ensembles de données non étiquetées (sans récompense) sans interaction supplémentaire avec l'environnement. Cependant, le GCRL hors ligne rencontre toujours des difficultés avec les tâches à long horizon, même avec les avancées récentes qui utilisent des structures de politiques hiérarchiques, comme HIQL. En identifiant la cause profonde de ce défi, nous observons les constats suivants : Premièrement, les goulots d'étranglement de performance proviennent principalement de l'incapacité de la politique de haut niveau à générer des sous-objectifs appropriés. Deuxièmement, lors de l'apprentissage de la politique de haut niveau dans le régime à long horizon, le signe du signal d'avantage devient fréquemment incorrect. Ainsi, nous soutenons qu'améliorer la fonction de valeur pour produire un signal d'avantage clair pour l'apprentissage de la politique de haut niveau est essentiel. Dans cet article, nous proposons une solution simple mais efficace : l'apprentissage de valeur abstraite temporellement conscient des options, baptisé OTA, qui intègre l'abstraction temporelle dans le processus d'apprentissage par différence temporelle. En modifiant la mise à jour de la valeur pour qu'elle soit consciente des options, le schéma d'apprentissage proposé réduit la longueur effective de l'horizon, permettant de meilleures estimations de l'avantage même dans les régimes à long horizon. Nous montrons expérimentalement que la politique de haut niveau extraite en utilisant la fonction de valeur OTA obtient de solides performances sur des tâches complexes issues d'OGBench, un benchmark récemment proposé pour le GCRL hors ligne, incluant la navigation dans des labyrinthes et des environnements de manipulation robotique visuelle.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical
learning paradigm where goal-reaching policies are trained from abundant
unlabeled (reward-free) datasets without additional environment interaction.
However, offline GCRL still struggles with long-horizon tasks, even with recent
advances that employ hierarchical policy structures, such as HIQL. By
identifying the root cause of this challenge, we observe the following
insights: First, performance bottlenecks mainly stem from the high-level
policy's inability to generate appropriate subgoals. Second, when learning the
high-level policy in the long-horizon regime, the sign of the advantage signal
frequently becomes incorrect. Thus, we argue that improving the value function
to produce a clear advantage signal for learning the high-level policy is
essential. In this paper, we propose a simple yet effective solution:
Option-aware Temporally Abstracted value learning, dubbed OTA, which
incorporates temporal abstraction into the temporal-difference learning
process. By modifying the value update to be option-aware, the proposed
learning scheme contracts the effective horizon length, enabling better
advantage estimates even in long-horizon regimes. We experimentally show that
the high-level policy extracted using the OTA value function achieves strong
performance on complex tasks from OGBench, a recently proposed offline GCRL
benchmark, including maze navigation and visual robotic manipulation
environments.Summary
AI-Generated Summary