Valor Temporalmente Abstrato Consciente da Opção para Aprendizado por Reforço Offline Orientado a Objetivos
Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
May 19, 2025
Autores: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI
Resumo
O aprendizado por reforço condicionado a objetivos offline (GCRL, na sigla em inglês) oferece um paradigma de aprendizado prático no qual políticas de alcance de objetivos são treinadas a partir de conjuntos de dados abundantes e não rotulados (sem recompensa) sem interação adicional com o ambiente. No entanto, o GCRL offline ainda enfrenta dificuldades em tarefas de longo horizonte, mesmo com avanços recentes que empregam estruturas de políticas hierárquicas, como o HIQL. Ao identificar a causa raiz desse desafio, observamos os seguintes insights: primeiro, os gargalos de desempenho decorrem principalmente da incapacidade da política de alto nível de gerar subobjetivos apropriados. Segundo, ao aprender a política de alto nível em regimes de longo horizonte, o sinal da vantagem frequentemente se torna incorreto. Assim, argumentamos que melhorar a função de valor para produzir um sinal de vantagem claro para o aprendizado da política de alto nível é essencial. Neste artigo, propomos uma solução simples, porém eficaz: o aprendizado de valor com abstração temporal consciente de opções, denominado OTA, que incorpora a abstração temporal ao processo de aprendizado por diferença temporal. Ao modificar a atualização do valor para ser consciente das opções, o esquema de aprendizado proposto reduz o comprimento efetivo do horizonte, permitindo melhores estimativas de vantagem mesmo em regimes de longo horizonte. Mostramos experimentalmente que a política de alto nível extraída usando a função de valor OTA alcança um desempenho forte em tarefas complexas do OGBench, um benchmark recentemente proposto para GCRL offline, incluindo navegação em labirintos e ambientes de manipulação robótica visual.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical
learning paradigm where goal-reaching policies are trained from abundant
unlabeled (reward-free) datasets without additional environment interaction.
However, offline GCRL still struggles with long-horizon tasks, even with recent
advances that employ hierarchical policy structures, such as HIQL. By
identifying the root cause of this challenge, we observe the following
insights: First, performance bottlenecks mainly stem from the high-level
policy's inability to generate appropriate subgoals. Second, when learning the
high-level policy in the long-horizon regime, the sign of the advantage signal
frequently becomes incorrect. Thus, we argue that improving the value function
to produce a clear advantage signal for learning the high-level policy is
essential. In this paper, we propose a simple yet effective solution:
Option-aware Temporally Abstracted value learning, dubbed OTA, which
incorporates temporal abstraction into the temporal-difference learning
process. By modifying the value update to be option-aware, the proposed
learning scheme contracts the effective horizon length, enabling better
advantage estimates even in long-horizon regimes. We experimentally show that
the high-level policy extracted using the OTA value function achieves strong
performance on complex tasks from OGBench, a recently proposed offline GCRL
benchmark, including maze navigation and visual robotic manipulation
environments.