Aprendizaje por Refuerzo Averso al Riesgo con Pérdida de Itakura-Saito
Risk-Averse Reinforcement Learning with Itakura-Saito Loss
May 22, 2025
Autores: Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin
cs.AI
Resumen
El aprendizaje por refuerzo averso al riesgo encuentra aplicación en diversos campos de alto impacto. A diferencia del aprendizaje por refuerzo clásico, que busca maximizar los retornos esperados, los agentes aversos al riesgo eligen políticas que minimizan el riesgo, sacrificando ocasionalmente el valor esperado. Estas preferencias pueden enmarcarse a través de la teoría de la utilidad. Nos enfocamos en el caso específico de la función de utilidad exponencial, donde podemos derivar las ecuaciones de Bellman y emplear varios algoritmos de aprendizaje por refuerzo con pocas modificaciones. Sin embargo, estos métodos sufren de inestabilidad numérica debido a la necesidad de calcular exponentes durante todo el proceso. Para abordar esto, introducimos una función de pérdida numéricamente estable y matemáticamente sólida basada en la divergencia de Itakura-Saito para aprender funciones de valor de estado y de acción. Evaluamos nuestra función de pérdida propuesta frente a alternativas establecidas, tanto teórica como empíricamente. En la sección experimental, exploramos múltiples escenarios financieros, algunos con soluciones analíticas conocidas, y demostramos que nuestra función de pérdida supera a las alternativas.
English
Risk-averse reinforcement learning finds application in various high-stakes
fields. Unlike classical reinforcement learning, which aims to maximize
expected returns, risk-averse agents choose policies that minimize risk,
occasionally sacrificing expected value. These preferences can be framed
through utility theory. We focus on the specific case of the exponential
utility function, where we can derive the Bellman equations and employ various
reinforcement learning algorithms with few modifications. However, these
methods suffer from numerical instability due to the need for exponent
computation throughout the process. To address this, we introduce a numerically
stable and mathematically sound loss function based on the Itakura-Saito
divergence for learning state-value and action-value functions. We evaluate our
proposed loss function against established alternatives, both theoretically and
empirically. In the experimental section, we explore multiple financial
scenarios, some with known analytical solutions, and show that our loss
function outperforms the alternatives.Summary
AI-Generated Summary