Comprendre et améliorer l'apprentissage par renforcement profond hyperbolique
Understanding and Improving Hyperbolic Deep Reinforcement Learning
December 16, 2025
papers.authors: Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek
cs.AI
papers.abstract
La performance des agents d'apprentissage par renforcement (RL) dépend de manière cruciale de la qualité des représentations de caractéristiques sous-jacentes. Les espaces de caractéristiques hyperboliques sont bien adaptés à cet effet, car ils capturent naturellement la structure hiérarchique et relationnelle souvent présente dans les environnements RL complexes. Cependant, leur exploitation se heurte généralement à des défis d'optimisation dus à la non-stationnarité du RL. Dans ce travail, nous identifions les facteurs clés qui déterminent le succès et l'échec de l'entraînement d'agents RL profonds hyperboliques. En analysant les gradients des opérations fondamentales dans les modèles de la boule de Poincaré et de l'hyperboloïde en géométrie hyperbolique, nous montrons que les plongements de grande norme déstabilisent l'entraînement par gradient, conduisant à des violations de la région de confiance dans l'optimisation de politique proximale (PPO). Sur la base de ces observations, nous présentons Hyper++, un nouvel agent PPO hyperbolique qui comporte trois composantes : (i) un entraînement stable du critique via une perte de valeur catégorielle au lieu d'une régression ; (ii) une régularisation des caractéristiques garantissant des normes bornées tout en évitant la malédiction de la dimension liée à l'écrêtage ; et (iii) l'utilisation d'une formulation plus adaptée à l'optimisation des couches de réseaux hyperboliques. Dans les expériences sur ProcGen, nous montrons qu'Hyper++ garantit un apprentissage stable, surpasse les agents hyperboliques antérieurs et réduit le temps d'exécution d'environ 30 %. Sur Atari-5 avec Double DQN, Hyper++ surpasse largement les lignes de base euclidiennes et hyperboliques. Nous publions notre code à l'adresse https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
English
The performance of reinforcement learning (RL) agents depends critically on the quality of the underlying feature representations. Hyperbolic feature spaces are well-suited for this purpose, as they naturally capture hierarchical and relational structure often present in complex RL environments. However, leveraging these spaces commonly faces optimization challenges due to the nonstationarity of RL. In this work, we identify key factors that determine the success and failure of training hyperbolic deep RL agents. By analyzing the gradients of core operations in the Poincaré Ball and Hyperboloid models of hyperbolic geometry, we show that large-norm embeddings destabilize gradient-based training, leading to trust-region violations in proximal policy optimization (PPO). Based on these insights, we introduce Hyper++, a new hyperbolic PPO agent that consists of three components: (i) stable critic training through a categorical value loss instead of regression; (ii) feature regularization guaranteeing bounded norms while avoiding the curse of dimensionality from clipping; and (iii) using a more optimization-friendly formulation of hyperbolic network layers. In experiments on ProcGen, we show that Hyper++ guarantees stable learning, outperforms prior hyperbolic agents, and reduces wall-clock time by approximately 30%. On Atari-5 with Double DQN, Hyper++ strongly outperforms Euclidean and hyperbolic baselines. We release our code at https://github.com/Probabilistic-and-Interactive-ML/hyper-rl .