ChatPaper.aiChatPaper

Aprendizado por Reforço Averso ao Risco com Perda de Itakura-Saito

Risk-Averse Reinforcement Learning with Itakura-Saito Loss

May 22, 2025
Autores: Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin
cs.AI

Resumo

O aprendizado por reforço avesso ao risco encontra aplicação em diversos campos de alta responsabilidade. Diferente do aprendizado por reforço clássico, que visa maximizar os retornos esperados, agentes avessos ao risco escolhem políticas que minimizam o risco, ocasionalmente sacrificando o valor esperado. Essas preferências podem ser enquadradas por meio da teoria da utilidade. Nosso foco é o caso específico da função de utilidade exponencial, onde podemos derivar as equações de Bellman e empregar diversos algoritmos de aprendizado por reforço com poucas modificações. No entanto, esses métodos sofrem com instabilidade numérica devido à necessidade de computação de exponenciais ao longo do processo. Para resolver isso, introduzimos uma função de perda numericamente estável e matematicamente sólida, baseada na divergência de Itakura-Saito, para aprender funções de valor de estado e de ação. Avaliamos nossa função de perda proposta em comparação com alternativas estabelecidas, tanto teoricamente quanto empiricamente. Na seção experimental, exploramos múltiplos cenários financeiros, alguns com soluções analíticas conhecidas, e mostramos que nossa função de perda supera as alternativas.
English
Risk-averse reinforcement learning finds application in various high-stakes fields. Unlike classical reinforcement learning, which aims to maximize expected returns, risk-averse agents choose policies that minimize risk, occasionally sacrificing expected value. These preferences can be framed through utility theory. We focus on the specific case of the exponential utility function, where we can derive the Bellman equations and employ various reinforcement learning algorithms with few modifications. However, these methods suffer from numerical instability due to the need for exponent computation throughout the process. To address this, we introduce a numerically stable and mathematically sound loss function based on the Itakura-Saito divergence for learning state-value and action-value functions. We evaluate our proposed loss function against established alternatives, both theoretically and empirically. In the experimental section, we explore multiple financial scenarios, some with known analytical solutions, and show that our loss function outperforms the alternatives.
PDF262December 14, 2025