쌍곡면 심층 강화 학습의 이해와 개선
Understanding and Improving Hyperbolic Deep Reinforcement Learning
December 16, 2025
저자: Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek
cs.AI
초록
강화학습(RL) 에이전트의 성능은 기본이 되는 특징 표현(feature representation)의 질에 크게 의존합니다. 쌍곡선 특징 공간은 복잡한 RL 환경에 흔히 존재하는 계층적 및 관계적 구조를 자연스럽게 포착하기 때문에 이 목적에 매우 적합합니다. 그러나 이러한 공간을 활용하는 것은 RL의 비정상성(nonstationarity)으로 인해 일반적으로 최적화 문제에 직면합니다. 본 연구에서는 쌍곡선 심층 RL 에이전트 훈련의 성공과 실패를 결정하는 핵심 요인을 규명합니다. 쌍곡선 기하학의 포앵카레 볼(Poincaré Ball) 및 쌍곡면(Hyperboloid) 모델에서 핵심 연산의 그래디언트를 분석함으로써, 큰 노름(norm)을 가진 임베딩이 그래디언트 기반 훈련을 불안정하게 만들고 근위 정책 최적화(PPO)에서 신뢰 구역(trust-region) 위반을 초래한다는 것을 보여줍니다. 이러한 통찰을 바탕으로 세 가지 구성 요소로 이루어진 새로운 쌍곡선 PPO 에이전트인 Hyper++를 소개합니다: (i) 회귀 분석 대신 범주형 가치 손실(categorical value loss)을 통한 안정적인 비평가(critic) 훈련; (ii) 클리핑(clipping)으로 인한 차원의 저주(curse of dimensionality)를 피하면서 노름이 제한되도록 보장하는 특징 정규화; (iii) 최적화에 더 친화적인 쌍곡선 네트워크 계층 공식을 사용. ProcGen에 대한 실험에서 Hyper++가 안정적인 학습을 보장하며, 기존 쌍곡선 에이전트를 능가하고, 실제 소요 시간(wall-clock time)을 약 30% 단축시킴을 보여줍니다. Double DQN을 사용한 Atari-5에서 Hyper++는 유클리드 및 쌍곡선 기준선(baseline)을 크게 능가합니다. 우리는 코드를 https://github.com/Probabilistic-and-Interactive-ML/hyper-rl 에 공개합니다.
English
The performance of reinforcement learning (RL) agents depends critically on the quality of the underlying feature representations. Hyperbolic feature spaces are well-suited for this purpose, as they naturally capture hierarchical and relational structure often present in complex RL environments. However, leveraging these spaces commonly faces optimization challenges due to the nonstationarity of RL. In this work, we identify key factors that determine the success and failure of training hyperbolic deep RL agents. By analyzing the gradients of core operations in the Poincaré Ball and Hyperboloid models of hyperbolic geometry, we show that large-norm embeddings destabilize gradient-based training, leading to trust-region violations in proximal policy optimization (PPO). Based on these insights, we introduce Hyper++, a new hyperbolic PPO agent that consists of three components: (i) stable critic training through a categorical value loss instead of regression; (ii) feature regularization guaranteeing bounded norms while avoiding the curse of dimensionality from clipping; and (iii) using a more optimization-friendly formulation of hyperbolic network layers. In experiments on ProcGen, we show that Hyper++ guarantees stable learning, outperforms prior hyperbolic agents, and reduces wall-clock time by approximately 30%. On Atari-5 with Double DQN, Hyper++ strongly outperforms Euclidean and hyperbolic baselines. We release our code at https://github.com/Probabilistic-and-Interactive-ML/hyper-rl .