ChatPaper.aiChatPaper

Begrijpen en Verbeteren van Hyperbolische Diepe Versterkingsleren

Understanding and Improving Hyperbolic Deep Reinforcement Learning

December 16, 2025
Auteurs: Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek
cs.AI

Samenvatting

De prestaties van reinforcement learning (RL)-agenten zijn in kritieke mate afhankelijk van de kwaliteit van de onderliggende feature-representaties. Hyperbolische feature-ruimten zijn hier bijzonder geschikt voor, omdat ze van nature hiërarchische en relationele structuren weergeven die vaak aanwezig zijn in complexe RL-omgevingen. Het benutten van deze ruimten wordt echter vaak geconfronteerd met optimalisatie-uitdagingen als gevolg van de non-stationariteit van RL. In dit werk identificeren we de belangrijkste factoren die het succes en falen bepalen bij het trainen van hyperbolische deep RL-agenten. Door de gradiënten van kernoperaties in de Poincaré-bal- en hyperboloïde-modellen van hyperbolische geometrie te analyseren, tonen we aan dat embeddings met een grote norm op gradient-gebaseerde training destabiliseren, wat leidt tot schendingen van het vertrouwensgebied (trust-region) in proximal policy optimization (PPO). Gebaseerd op deze inzichten introduceren we Hyper++, een nieuwe hyperbolische PPO-agent die uit drie componenten bestaat: (i) stabiele criticus-training door een categorisch waarde-verlies in plaats van regressie; (ii) feature-regularisatie die gegarandeerd begrensde normen biedt, terwijl de dimensionaliteitsvloek van clipping wordt vermeden; en (iii) het gebruik van een optimalisatievriendelijkere formulering van hyperbolische netwerklagen. In experimenten met ProcGen tonen we aan dat Hyper++ stabiel leren garandeert, eerdere hyperbolische agenten overtreft en de wall-clock tijd met ongeveer 30% reduceert. Op Atari-5 met Double DQN presteert Hyper++ aanzienlijk beter dan Euclidische en hyperbolische baseline-methoden. Onze code is vrijgegeven op https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
English
The performance of reinforcement learning (RL) agents depends critically on the quality of the underlying feature representations. Hyperbolic feature spaces are well-suited for this purpose, as they naturally capture hierarchical and relational structure often present in complex RL environments. However, leveraging these spaces commonly faces optimization challenges due to the nonstationarity of RL. In this work, we identify key factors that determine the success and failure of training hyperbolic deep RL agents. By analyzing the gradients of core operations in the Poincaré Ball and Hyperboloid models of hyperbolic geometry, we show that large-norm embeddings destabilize gradient-based training, leading to trust-region violations in proximal policy optimization (PPO). Based on these insights, we introduce Hyper++, a new hyperbolic PPO agent that consists of three components: (i) stable critic training through a categorical value loss instead of regression; (ii) feature regularization guaranteeing bounded norms while avoiding the curse of dimensionality from clipping; and (iii) using a more optimization-friendly formulation of hyperbolic network layers. In experiments on ProcGen, we show that Hyper++ guarantees stable learning, outperforms prior hyperbolic agents, and reduces wall-clock time by approximately 30%. On Atari-5 with Double DQN, Hyper++ strongly outperforms Euclidean and hyperbolic baselines. We release our code at https://github.com/Probabilistic-and-Interactive-ML/hyper-rl .
PDF42December 19, 2025