ChatPaper.aiChatPaper

Valeur Temporellement Abstraite Consciente des Options pour l'Apprentissage par Renforcement Hors Ligne Conditionné par des Objectifs

Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning

May 19, 2025
Auteurs: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI

Résumé

L'apprentissage par renforcement hors ligne conditionné par objectifs (GCRL) propose un paradigme d'apprentissage pratique où les politiques de réalisation d'objectifs sont entraînées à partir de vastes ensembles de données non étiquetées (sans récompense) sans interaction supplémentaire avec l'environnement. Cependant, le GCRL hors ligne rencontre toujours des difficultés avec les tâches à long horizon, même avec les avancées récentes qui utilisent des structures de politiques hiérarchiques, comme HIQL. En identifiant la cause profonde de ce défi, nous observons les constats suivants : Premièrement, les goulots d'étranglement de performance proviennent principalement de l'incapacité de la politique de haut niveau à générer des sous-objectifs appropriés. Deuxièmement, lors de l'apprentissage de la politique de haut niveau dans le régime à long horizon, le signe du signal d'avantage devient fréquemment incorrect. Ainsi, nous soutenons qu'améliorer la fonction de valeur pour produire un signal d'avantage clair pour l'apprentissage de la politique de haut niveau est essentiel. Dans cet article, nous proposons une solution simple mais efficace : l'apprentissage de valeur abstraite temporellement conscient des options, baptisé OTA, qui intègre l'abstraction temporelle dans le processus d'apprentissage par différence temporelle. En modifiant la mise à jour de la valeur pour qu'elle soit consciente des options, le schéma d'apprentissage proposé réduit la longueur effective de l'horizon, permettant de meilleures estimations de l'avantage même dans les régimes à long horizon. Nous montrons expérimentalement que la politique de haut niveau extraite en utilisant la fonction de valeur OTA obtient de solides performances sur des tâches complexes issues d'OGBench, un benchmark récemment proposé pour le GCRL hors ligne, incluant la navigation dans des labyrinthes et des environnements de manipulation robotique visuelle.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical learning paradigm where goal-reaching policies are trained from abundant unlabeled (reward-free) datasets without additional environment interaction. However, offline GCRL still struggles with long-horizon tasks, even with recent advances that employ hierarchical policy structures, such as HIQL. By identifying the root cause of this challenge, we observe the following insights: First, performance bottlenecks mainly stem from the high-level policy's inability to generate appropriate subgoals. Second, when learning the high-level policy in the long-horizon regime, the sign of the advantage signal frequently becomes incorrect. Thus, we argue that improving the value function to produce a clear advantage signal for learning the high-level policy is essential. In this paper, we propose a simple yet effective solution: Option-aware Temporally Abstracted value learning, dubbed OTA, which incorporates temporal abstraction into the temporal-difference learning process. By modifying the value update to be option-aware, the proposed learning scheme contracts the effective horizon length, enabling better advantage estimates even in long-horizon regimes. We experimentally show that the high-level policy extracted using the OTA value function achieves strong performance on complex tasks from OGBench, a recently proposed offline GCRL benchmark, including maze navigation and visual robotic manipulation environments.

Summary

AI-Generated Summary

PDF12May 27, 2025