Comprensione e miglioramento dell'apprendimento per rinforzo profondo iperbolico
Understanding and Improving Hyperbolic Deep Reinforcement Learning
December 16, 2025
Autori: Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek
cs.AI
Abstract
Le prestazioni degli agenti di apprendimento per rinforzo (RL) dipendono in modo cruciale dalla qualità delle rappresentazioni di feature sottostanti. Gli spazi iperbolici delle feature sono particolarmente adatti a questo scopo, poiché catturano naturalmente la struttura gerarchica e relazionale spesso presente in ambienti complessi di RL. Tuttavia, lo sfruttamento di questi spazi incontra comunemente sfide di ottimizzazione a causa della non stazionarietà dell'RL. In questo lavoro, identifichiamo i fattori chiave che determinano il successo o il fallimento dell'addestramento di agenti di RL profondo iperbolici. Analizzando i gradienti delle operazioni fondamentali nei modelli della Palla di Poincaré e dell'Iperboloide della geometria iperbolica, dimostriamo che embedding con norma elevata destabilizzano l'addestramento basato sui gradienti, portando a violazioni della regione di fiducia nell'ottimizzazione prossimale delle politiche (PPO). Sulla base di queste intuizioni, introduciamo Hyper++, un nuovo agente PPO iperbolico che consiste di tre componenti: (i) addestramento stabile del critico attraverso una loss di valore categorica invece della regressione; (ii) regolarizzazione delle feature che garantisce norme limitate evitando al contempo la maledizione della dimensionalità derivante dal clipping; e (iii) l'utilizzo di una formulazione più favorevole all'ottimizzazione per i layer di rete iperbolici. Negli esperimenti su ProcGen, mostriamo che Hyper++ garantisce un apprendimento stabile, supera gli agenti iperbolici precedenti e riduce il tempo di calcolo effettivo di circa il 30%. Su Atari-5 con Double DQN, Hyper++ supera nettamente i baseline euclidei e iperbolici. Rilasciamo il nostro codice all'indirizzo https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
English
The performance of reinforcement learning (RL) agents depends critically on the quality of the underlying feature representations. Hyperbolic feature spaces are well-suited for this purpose, as they naturally capture hierarchical and relational structure often present in complex RL environments. However, leveraging these spaces commonly faces optimization challenges due to the nonstationarity of RL. In this work, we identify key factors that determine the success and failure of training hyperbolic deep RL agents. By analyzing the gradients of core operations in the Poincaré Ball and Hyperboloid models of hyperbolic geometry, we show that large-norm embeddings destabilize gradient-based training, leading to trust-region violations in proximal policy optimization (PPO). Based on these insights, we introduce Hyper++, a new hyperbolic PPO agent that consists of three components: (i) stable critic training through a categorical value loss instead of regression; (ii) feature regularization guaranteeing bounded norms while avoiding the curse of dimensionality from clipping; and (iii) using a more optimization-friendly formulation of hyperbolic network layers. In experiments on ProcGen, we show that Hyper++ guarantees stable learning, outperforms prior hyperbolic agents, and reduces wall-clock time by approximately 30%. On Atari-5 with Double DQN, Hyper++ strongly outperforms Euclidean and hyperbolic baselines. We release our code at https://github.com/Probabilistic-and-Interactive-ML/hyper-rl .