ChatPaper.aiChatPaper

Valor Temporalmente Abstracto Consciente de Opciones para el Aprendizaje por Refuerzo Fuera de Línea Orientado a Objetivos

Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning

May 19, 2025
Autores: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI

Resumen

El aprendizaje por refuerzo condicionado a objetivos (GCRL) en modo offline ofrece un paradigma de aprendizaje práctico en el que las políticas de alcance de objetivos se entrenan a partir de conjuntos de datos abundantes y sin etiquetar (libres de recompensas) sin necesidad de interacción adicional con el entorno. Sin embargo, el GCRL offline aún enfrenta dificultades en tareas de horizonte largo, incluso con avances recientes que emplean estructuras de políticas jerárquicas, como HIQL. Al identificar la causa raíz de este desafío, observamos las siguientes conclusiones: En primer lugar, los cuellos de botella en el rendimiento se deben principalmente a la incapacidad de la política de alto nivel para generar subobjetivos adecuados. En segundo lugar, al aprender la política de alto nivel en regímenes de horizonte largo, el signo de la señal de ventaja suele volverse incorrecto. Por lo tanto, argumentamos que mejorar la función de valor para producir una señal de ventaja clara para el aprendizaje de la política de alto nivel es esencial. En este artículo, proponemos una solución simple pero efectiva: el aprendizaje de valor con abstracción temporal consciente de opciones, denominado OTA, que incorpora la abstracción temporal en el proceso de aprendizaje por diferencias temporales. Al modificar la actualización del valor para que sea consciente de las opciones, el esquema de aprendizaje propuesto reduce la longitud efectiva del horizonte, permitiendo mejores estimaciones de ventaja incluso en regímenes de horizonte largo. Experimentalmente demostramos que la política de alto nivel extraída utilizando la función de valor OTA logra un rendimiento sólido en tareas complejas de OGBench, un punto de referencia recientemente propuesto para GCRL offline, que incluye entornos de navegación en laberintos y manipulación robótica visual.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical learning paradigm where goal-reaching policies are trained from abundant unlabeled (reward-free) datasets without additional environment interaction. However, offline GCRL still struggles with long-horizon tasks, even with recent advances that employ hierarchical policy structures, such as HIQL. By identifying the root cause of this challenge, we observe the following insights: First, performance bottlenecks mainly stem from the high-level policy's inability to generate appropriate subgoals. Second, when learning the high-level policy in the long-horizon regime, the sign of the advantage signal frequently becomes incorrect. Thus, we argue that improving the value function to produce a clear advantage signal for learning the high-level policy is essential. In this paper, we propose a simple yet effective solution: Option-aware Temporally Abstracted value learning, dubbed OTA, which incorporates temporal abstraction into the temporal-difference learning process. By modifying the value update to be option-aware, the proposed learning scheme contracts the effective horizon length, enabling better advantage estimates even in long-horizon regimes. We experimentally show that the high-level policy extracted using the OTA value function achieves strong performance on complex tasks from OGBench, a recently proposed offline GCRL benchmark, including maze navigation and visual robotic manipulation environments.

Summary

AI-Generated Summary

PDF12May 27, 2025