Риск-аверсивное обучение с подкреплением с использованием потери Итакуры-Сайто
Risk-Averse Reinforcement Learning with Itakura-Saito Loss
May 22, 2025
Авторы: Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin
cs.AI
Аннотация
Риск-аверсивное обучение с подкреплением находит применение в различных областях с высокими ставками. В отличие от классического обучения с подкреплением, которое направлено на максимизацию ожидаемой доходности, риск-аверсивные агенты выбирают стратегии, минимизирующие риск, иногда жертвуя ожидаемой ценностью. Эти предпочтения могут быть выражены через теорию полезности. Мы сосредотачиваемся на конкретном случае экспоненциальной функции полезности, где можно вывести уравнения Беллмана и применять различные алгоритмы обучения с подкреплением с минимальными изменениями. Однако эти методы страдают от численной нестабильности из-за необходимости вычисления экспоненты на протяжении всего процесса. Чтобы решить эту проблему, мы предлагаем численно устойчивую и математически обоснованную функцию потерь, основанную на дивергенции Итакуры-Сайто, для обучения функциям ценности состояний и действий. Мы оцениваем предложенную функцию потерь по сравнению с известными альтернативами как теоретически, так и эмпирически. В экспериментальной части мы исследуем несколько финансовых сценариев, некоторые из которых имеют известные аналитические решения, и показываем, что наша функция потерь превосходит альтернативы.
English
Risk-averse reinforcement learning finds application in various high-stakes
fields. Unlike classical reinforcement learning, which aims to maximize
expected returns, risk-averse agents choose policies that minimize risk,
occasionally sacrificing expected value. These preferences can be framed
through utility theory. We focus on the specific case of the exponential
utility function, where we can derive the Bellman equations and employ various
reinforcement learning algorithms with few modifications. However, these
methods suffer from numerical instability due to the need for exponent
computation throughout the process. To address this, we introduce a numerically
stable and mathematically sound loss function based on the Itakura-Saito
divergence for learning state-value and action-value functions. We evaluate our
proposed loss function against established alternatives, both theoretically and
empirically. In the experimental section, we explore multiple financial
scenarios, some with known analytical solutions, and show that our loss
function outperforms the alternatives.Summary
AI-Generated Summary