Риск-аверсивное обучение с подкреплением с использованием потери Итакуры-Сайто

Аннотация

Риск-аверсивное обучение с подкреплением находит применение в различных областях с высокими ставками. В отличие от классического обучения с подкреплением, которое направлено на максимизацию ожидаемой доходности, риск-аверсивные агенты выбирают стратегии, минимизирующие риск, иногда жертвуя ожидаемой ценностью. Эти предпочтения могут быть выражены через теорию полезности. Мы сосредотачиваемся на конкретном случае экспоненциальной функции полезности, где можно вывести уравнения Беллмана и применять различные алгоритмы обучения с подкреплением с минимальными изменениями. Однако эти методы страдают от численной нестабильности из-за необходимости вычисления экспоненты на протяжении всего процесса. Чтобы решить эту проблему, мы предлагаем численно устойчивую и математически обоснованную функцию потерь, основанную на дивергенции Итакуры-Сайто, для обучения функциям ценности состояний и действий. Мы оцениваем предложенную функцию потерь по сравнению с известными альтернативами как теоретически, так и эмпирически. В экспериментальной части мы исследуем несколько финансовых сценариев, некоторые из которых имеют известные аналитические решения, и показываем, что наша функция потерь превосходит альтернативы.

English

Risk-averse reinforcement learning finds application in various high-stakes fields. Unlike classical reinforcement learning, which aims to maximize expected returns, risk-averse agents choose policies that minimize risk, occasionally sacrificing expected value. These preferences can be framed through utility theory. We focus on the specific case of the exponential utility function, where we can derive the Bellman equations and employ various reinforcement learning algorithms with few modifications. However, these methods suffer from numerical instability due to the need for exponent computation throughout the process. To address this, we introduce a numerically stable and mathematically sound loss function based on the Itakura-Saito divergence for learning state-value and action-value functions. We evaluate our proposed loss function against established alternatives, both theoretically and empirically. In the experimental section, we explore multiple financial scenarios, some with known analytical solutions, and show that our loss function outperforms the alternatives.

Риск-аверсивное обучение с подкреплением с использованием потери Итакуры-Сайто

Risk-Averse Reinforcement Learning with Itakura-Saito Loss

Аннотация

Support