ChatPaper.aiChatPaper

Verständnis und Verbesserung von hyperbolischem Deep Reinforcement Learning

Understanding and Improving Hyperbolic Deep Reinforcement Learning

December 16, 2025
papers.authors: Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek
cs.AI

papers.abstract

Die Leistung von Reinforcement Learning (RL)-Agenten hängt entscheidend von der Qualität der zugrundeliegenden Merkmalsrepräsentationen ab. Hyperbolische Merkmalsräume sind hierfür besonders geeignet, da sie von Natur aus hierarchische und relationale Strukturen erfassen, die oft in komplexen RL-Umgebungen vorhanden sind. Die Nutzung dieser Räume steht jedoch häufig vor Optimierungsherausforderungen aufgrund der Nichtstationarität von RL. In dieser Arbeit identifizieren wir Schlüsselfaktoren, die den Erfolg und das Scheitern beim Training hyperbolischer Deep-RL-Agenten bestimmen. Durch Analyse der Gradienten grundlegender Operationen in den Poincaré-Ball- und Hyperboloid-Modellen der hyperbolischen Geometrie zeigen wir, dass Einbettungen mit großer Norm gradientenbasiertes Training destabilisieren, was zu Verletzungen der Trust-Region bei der proximalen Politikoptimierung (PPO) führt. Aufbauend auf diesen Erkenntnissen stellen wir Hyper++ vor, einen neuen hyperbolischen PPO-Agenten, der aus drei Komponenten besteht: (i) stabiles Critic-Training durch einen kategorialen Wertverlust anstelle von Regression; (ii) Merkmalsregularisierung, die begrenzte Normen gewährleistet und gleichzeitig den Fluch der Dimensionalität durch Clipping vermeidet; und (iii) eine optimierungsfreundlichere Formulierung hyperbolischer Netzwerkschichten. In Experimenten mit ProcGen zeigen wir, dass Hyper++ stabiles Lernen garantiert, bisherige hyperbolische Agenten übertrifft und die Echtzeit um etwa 30 % reduziert. Bei Atari-5 mit Double DQN übertrifft Hyper++ euklidische und hyperbolische Baseline-Methoden deutlich. Unser Code ist unter https://github.com/Probabilistic-and-Interactive-ML/hyper-rl verfügbar.
English
The performance of reinforcement learning (RL) agents depends critically on the quality of the underlying feature representations. Hyperbolic feature spaces are well-suited for this purpose, as they naturally capture hierarchical and relational structure often present in complex RL environments. However, leveraging these spaces commonly faces optimization challenges due to the nonstationarity of RL. In this work, we identify key factors that determine the success and failure of training hyperbolic deep RL agents. By analyzing the gradients of core operations in the Poincaré Ball and Hyperboloid models of hyperbolic geometry, we show that large-norm embeddings destabilize gradient-based training, leading to trust-region violations in proximal policy optimization (PPO). Based on these insights, we introduce Hyper++, a new hyperbolic PPO agent that consists of three components: (i) stable critic training through a categorical value loss instead of regression; (ii) feature regularization guaranteeing bounded norms while avoiding the curse of dimensionality from clipping; and (iii) using a more optimization-friendly formulation of hyperbolic network layers. In experiments on ProcGen, we show that Hyper++ guarantees stable learning, outperforms prior hyperbolic agents, and reduces wall-clock time by approximately 30%. On Atari-5 with Double DQN, Hyper++ strongly outperforms Euclidean and hyperbolic baselines. We release our code at https://github.com/Probabilistic-and-Interactive-ML/hyper-rl .
PDF42December 19, 2025