Valor Temporalmente Abstracto Consciente de Opciones para el Aprendizaje por Refuerzo Fuera de Línea Orientado a Objetivos
Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
May 19, 2025
Autores: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI
Resumen
El aprendizaje por refuerzo condicionado a objetivos (GCRL) en modo offline ofrece un paradigma de aprendizaje práctico en el que las políticas de alcance de objetivos se entrenan a partir de conjuntos de datos abundantes y sin etiquetar (libres de recompensas) sin necesidad de interacción adicional con el entorno. Sin embargo, el GCRL offline aún enfrenta dificultades en tareas de horizonte largo, incluso con avances recientes que emplean estructuras de políticas jerárquicas, como HIQL. Al identificar la causa raíz de este desafío, observamos las siguientes conclusiones: En primer lugar, los cuellos de botella en el rendimiento se deben principalmente a la incapacidad de la política de alto nivel para generar subobjetivos adecuados. En segundo lugar, al aprender la política de alto nivel en regímenes de horizonte largo, el signo de la señal de ventaja suele volverse incorrecto. Por lo tanto, argumentamos que mejorar la función de valor para producir una señal de ventaja clara para el aprendizaje de la política de alto nivel es esencial. En este artículo, proponemos una solución simple pero efectiva: el aprendizaje de valor con abstracción temporal consciente de opciones, denominado OTA, que incorpora la abstracción temporal en el proceso de aprendizaje por diferencias temporales. Al modificar la actualización del valor para que sea consciente de las opciones, el esquema de aprendizaje propuesto reduce la longitud efectiva del horizonte, permitiendo mejores estimaciones de ventaja incluso en regímenes de horizonte largo. Experimentalmente demostramos que la política de alto nivel extraída utilizando la función de valor OTA logra un rendimiento sólido en tareas complejas de OGBench, un punto de referencia recientemente propuesto para GCRL offline, que incluye entornos de navegación en laberintos y manipulación robótica visual.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical
learning paradigm where goal-reaching policies are trained from abundant
unlabeled (reward-free) datasets without additional environment interaction.
However, offline GCRL still struggles with long-horizon tasks, even with recent
advances that employ hierarchical policy structures, such as HIQL. By
identifying the root cause of this challenge, we observe the following
insights: First, performance bottlenecks mainly stem from the high-level
policy's inability to generate appropriate subgoals. Second, when learning the
high-level policy in the long-horizon regime, the sign of the advantage signal
frequently becomes incorrect. Thus, we argue that improving the value function
to produce a clear advantage signal for learning the high-level policy is
essential. In this paper, we propose a simple yet effective solution:
Option-aware Temporally Abstracted value learning, dubbed OTA, which
incorporates temporal abstraction into the temporal-difference learning
process. By modifying the value update to be option-aware, the proposed
learning scheme contracts the effective horizon length, enabling better
advantage estimates even in long-horizon regimes. We experimentally show that
the high-level policy extracted using the OTA value function achieves strong
performance on complex tasks from OGBench, a recently proposed offline GCRL
benchmark, including maze navigation and visual robotic manipulation
environments.Summary
AI-Generated Summary