Осознающая опции временно абстрагированная ценность для обучения с подкреплением, ориентированного на цели, в автономном режиме
Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
May 19, 2025
Авторы: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI
Аннотация
Оффлайн обучение с подкреплением, ориентированное на цели (GCRL), представляет собой практическую парадигму обучения, в которой политики достижения целей обучаются на основе обширных немаркированных (без вознаграждения) наборов данных без дополнительного взаимодействия со средой. Однако оффлайн GCRL по-прежнему испытывает трудности с задачами, требующими долгосрочного планирования, даже с учетом недавних достижений, использующих иерархические структуры политик, такие как HIQL. Выявив коренную причину этой проблемы, мы наблюдаем следующие инсайты: во-первых, узкие места в производительности в основном связаны с неспособностью высокоуровневой политики генерировать подходящие подцели. Во-вторых, при обучении высокоуровневой политики в условиях долгосрочного планирования знак сигнала преимущества часто оказывается некорректным. Таким образом, мы утверждаем, что улучшение функции ценности для получения четкого сигнала преимущества при обучении высокоуровневой политики является ключевым. В данной статье мы предлагаем простое, но эффективное решение: обучение ценности с учетом временной абстракции, названное OTA, которое интегрирует временную абстракцию в процесс обучения на основе временных разностей. Модифицируя обновление ценности с учетом опций, предложенная схема обучения сокращает эффективную длину горизонта, что позволяет получать более точные оценки преимущества даже в условиях долгосрочного планирования. Экспериментально мы показываем, что высокоуровневая политика, извлеченная с использованием функции ценности OTA, демонстрирует высокую производительность на сложных задачах из OGBench, недавно предложенного бенчмарка для оффлайн GCRL, включая навигацию в лабиринте и визуальные среды для манипуляции роботами.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical
learning paradigm where goal-reaching policies are trained from abundant
unlabeled (reward-free) datasets without additional environment interaction.
However, offline GCRL still struggles with long-horizon tasks, even with recent
advances that employ hierarchical policy structures, such as HIQL. By
identifying the root cause of this challenge, we observe the following
insights: First, performance bottlenecks mainly stem from the high-level
policy's inability to generate appropriate subgoals. Second, when learning the
high-level policy in the long-horizon regime, the sign of the advantage signal
frequently becomes incorrect. Thus, we argue that improving the value function
to produce a clear advantage signal for learning the high-level policy is
essential. In this paper, we propose a simple yet effective solution:
Option-aware Temporally Abstracted value learning, dubbed OTA, which
incorporates temporal abstraction into the temporal-difference learning
process. By modifying the value update to be option-aware, the proposed
learning scheme contracts the effective horizon length, enabling better
advantage estimates even in long-horizon regimes. We experimentally show that
the high-level policy extracted using the OTA value function achieves strong
performance on complex tasks from OGBench, a recently proposed offline GCRL
benchmark, including maze navigation and visual robotic manipulation
environments.Summary
AI-Generated Summary