Apprendimento per Rinforzo Avverso al Rischio con Funzione di Perdita Itakura-Saito
Risk-Averse Reinforcement Learning with Itakura-Saito Loss
May 22, 2025
Autori: Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin
cs.AI
Abstract
L'apprendimento per rinforzo avverso al rischio trova applicazione in vari campi ad alto rischio. A differenza dell'apprendimento per rinforzo classico, che mira a massimizzare i rendimenti attesi, gli agenti avversi al rischio scelgono politiche che minimizzano il rischio, sacrificando occasionalmente il valore atteso. Queste preferenze possono essere inquadrate attraverso la teoria dell'utilità. Ci concentriamo sul caso specifico della funzione di utilità esponenziale, dove possiamo derivare le equazioni di Bellman e impiegare vari algoritmi di apprendimento per rinforzo con poche modifiche. Tuttavia, questi metodi soffrono di instabilità numerica a causa della necessità di calcolare esponenziali durante il processo. Per affrontare questo problema, introduciamo una funzione di perdita numericamente stabile e matematicamente solida basata sulla divergenza di Itakura-Saito per l'apprendimento delle funzioni di valore degli stati e delle azioni. Valutiamo la nostra funzione di perdita proposta rispetto ad alternative consolidate, sia teoricamente che empiricamente. Nella sezione sperimentale, esploriamo diversi scenari finanziari, alcuni con soluzioni analitiche note, e dimostriamo che la nostra funzione di perdita supera le alternative.
English
Risk-averse reinforcement learning finds application in various high-stakes
fields. Unlike classical reinforcement learning, which aims to maximize
expected returns, risk-averse agents choose policies that minimize risk,
occasionally sacrificing expected value. These preferences can be framed
through utility theory. We focus on the specific case of the exponential
utility function, where we can derive the Bellman equations and employ various
reinforcement learning algorithms with few modifications. However, these
methods suffer from numerical instability due to the need for exponent
computation throughout the process. To address this, we introduce a numerically
stable and mathematically sound loss function based on the Itakura-Saito
divergence for learning state-value and action-value functions. We evaluate our
proposed loss function against established alternatives, both theoretically and
empirically. In the experimental section, we explore multiple financial
scenarios, some with known analytical solutions, and show that our loss
function outperforms the alternatives.