오프라인 목표-조건 강화 학습을 위한 옵션 인식 시간적 추상화 가치
Option-aware Temporally Abstracted Value for Offline Goal-Conditioned Reinforcement Learning
May 19, 2025
저자: Hongjoon Ahn, Heewoong Choi, Jisu Han, Taesup Moon
cs.AI
초록
오프라인 목표 조건 강화 학습(GCRL)은 추가적인 환경 상호작용 없이 풍부한 레이블 없는(보상이 없는) 데이터셋으로부터 목표 도달 정책을 훈련시키는 실용적인 학습 패러다임을 제공합니다. 그러나 오프라인 GCRL은 HIQL과 같은 계층적 정책 구조를 활용한 최근의 발전에도 불구하고 여전히 장기간 작업에서 어려움을 겪고 있습니다. 이러한 문제의 근본 원인을 파악함으로써 우리는 다음과 같은 통찰을 얻었습니다: 첫째, 성능 병목 현상은 주로 상위 정책이 적절한 하위 목표를 생성하지 못하는 데서 비롯됩니다. 둘째, 장기간 작업에서 상위 정책을 학습할 때, 이점 신호의 부호가 자주 잘못됩니다. 따라서 상위 정책 학습을 위한 명확한 이점 신호를 생성하기 위해 가치 함수를 개선하는 것이 필수적이라고 주장합니다. 본 논문에서는 간단하지만 효과적인 해결책을 제안합니다: 시간적 추상화를 시간차 학습 과정에 통합한 OTA(Option-aware Temporally Abstracted value learning)입니다. 제안된 학습 방식은 가치 업데이트를 옵션 인식으로 수정함으로써 효과적인 시간 지평 길이를 단축시켜, 장기간 작업에서도 더 나은 이점 추정을 가능하게 합니다. 우리는 실험적으로 OTA 가치 함수를 사용하여 추출한 상위 정책이 최근 제안된 오프라인 GCRL 벤치마크인 OGBench의 복잡한 작업(미로 탐색 및 시각적 로봇 조작 환경 포함)에서 강력한 성능을 달성함을 보여줍니다.
English
Offline goal-conditioned reinforcement learning (GCRL) offers a practical
learning paradigm where goal-reaching policies are trained from abundant
unlabeled (reward-free) datasets without additional environment interaction.
However, offline GCRL still struggles with long-horizon tasks, even with recent
advances that employ hierarchical policy structures, such as HIQL. By
identifying the root cause of this challenge, we observe the following
insights: First, performance bottlenecks mainly stem from the high-level
policy's inability to generate appropriate subgoals. Second, when learning the
high-level policy in the long-horizon regime, the sign of the advantage signal
frequently becomes incorrect. Thus, we argue that improving the value function
to produce a clear advantage signal for learning the high-level policy is
essential. In this paper, we propose a simple yet effective solution:
Option-aware Temporally Abstracted value learning, dubbed OTA, which
incorporates temporal abstraction into the temporal-difference learning
process. By modifying the value update to be option-aware, the proposed
learning scheme contracts the effective horizon length, enabling better
advantage estimates even in long-horizon regimes. We experimentally show that
the high-level policy extracted using the OTA value function achieves strong
performance on complex tasks from OGBench, a recently proposed offline GCRL
benchmark, including maze navigation and visual robotic manipulation
environments.Summary
AI-Generated Summary