ChatPaper.aiChatPaper

Понимание и улучшение гиперболического глубокого обучения с подкреплением

Understanding and Improving Hyperbolic Deep Reinforcement Learning

December 16, 2025
Авторы: Timo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek
cs.AI

Аннотация

Эффективность агентов обучения с подкреплением (ОП) критически зависит от качества базовых признаковых представлений. Гиперболические пространства признаков хорошо подходят для этой цели, поскольку они естественным образом отражают иерархическую и реляционную структуру, часто присутствующую в сложных средах ОП. Однако использование этих пространств обычно сталкивается с проблемами оптимизации из-за нестационарности ОП. В данной работе мы определяем ключевые факторы, определяющие успех и неудачу при обучении глубоких гиперболических агентов ОП. Анализируя градиенты основных операций в моделях гиперболической геометрии — шаре Пуанкаре и гиперболоиде — мы показываем, что embeddings с большой нормой дестабилизируют градиентное обучение, приводя к нарушениям trust-region в проксимальной оптимизации политики (PPO). На основе этих инсайтов мы представляем Hyper++ — нового гиперболического агента PPO, который состоит из трех компонентов: (i) стабильное обучение критика с помощью категориальной функции потерь для ценности вместо регрессии; (ii) регуляризация признаков, гарантирующая ограниченность норм и избегающая проклятия размерности, присущего отсечению (clipping); и (iii) использование более удобной для оптимизации формулировки гиперболических слоев нейронной сети. В экспериментах на ProcGen мы показываем, что Hyper++ гарантирует стабильное обучение, превосходит предыдущие гиперболические агенты и сокращает реальное время обучения примерно на 30%. На Atari-5 с Double DQN Hyper++ значительно превосходит евклидовые и гиперболические базовые методы. Наш код доступен по адресу https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
English
The performance of reinforcement learning (RL) agents depends critically on the quality of the underlying feature representations. Hyperbolic feature spaces are well-suited for this purpose, as they naturally capture hierarchical and relational structure often present in complex RL environments. However, leveraging these spaces commonly faces optimization challenges due to the nonstationarity of RL. In this work, we identify key factors that determine the success and failure of training hyperbolic deep RL agents. By analyzing the gradients of core operations in the Poincaré Ball and Hyperboloid models of hyperbolic geometry, we show that large-norm embeddings destabilize gradient-based training, leading to trust-region violations in proximal policy optimization (PPO). Based on these insights, we introduce Hyper++, a new hyperbolic PPO agent that consists of three components: (i) stable critic training through a categorical value loss instead of regression; (ii) feature regularization guaranteeing bounded norms while avoiding the curse of dimensionality from clipping; and (iii) using a more optimization-friendly formulation of hyperbolic network layers. In experiments on ProcGen, we show that Hyper++ guarantees stable learning, outperforms prior hyperbolic agents, and reduces wall-clock time by approximately 30%. On Atari-5 with Double DQN, Hyper++ strongly outperforms Euclidean and hyperbolic baselines. We release our code at https://github.com/Probabilistic-and-Interactive-ML/hyper-rl .
PDF42December 19, 2025