Risicomijdend Reinforcement Learning met Itakura-Saito Verlies
Risk-Averse Reinforcement Learning with Itakura-Saito Loss
May 22, 2025
Auteurs: Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin
cs.AI
Samenvatting
Risicomijdende reinforcement learning vindt toepassing in diverse hoogrisicovakgebieden. In tegenstelling tot klassieke reinforcement learning, die gericht is op het maximaliseren van verwachte opbrengsten, kiezen risicomijdende agents beleidsregels die het risico minimaliseren, waarbij soms verwachte waarde wordt opgeofferd. Deze voorkeuren kunnen worden geformuleerd via nutstheorie. Wij richten ons op het specifieke geval van de exponentiële nutsfunctie, waarbij we de Bellman-vergelijkingen kunnen afleiden en diverse reinforcement learning-algoritmen kunnen toepassen met weinig aanpassingen. Deze methoden lijden echter aan numerieke instabiliteit vanwege de noodzaak van exponentberekeningen gedurende het proces. Om dit aan te pakken, introduceren we een numeriek stabiele en wiskundig solide verliesfunctie gebaseerd op de Itakura-Saito-divergentie voor het leren van toestands- en actiewaardefuncties. We evalueren onze voorgestelde verliesfunctie tegenover gevestigde alternatieven, zowel theoretisch als empirisch. In het experimentele gedeelte verkennen we meerdere financiële scenario's, sommige met bekende analytische oplossingen, en tonen we aan dat onze verliesfunctie beter presteert dan de alternatieven.
English
Risk-averse reinforcement learning finds application in various high-stakes
fields. Unlike classical reinforcement learning, which aims to maximize
expected returns, risk-averse agents choose policies that minimize risk,
occasionally sacrificing expected value. These preferences can be framed
through utility theory. We focus on the specific case of the exponential
utility function, where we can derive the Bellman equations and employ various
reinforcement learning algorithms with few modifications. However, these
methods suffer from numerical instability due to the need for exponent
computation throughout the process. To address this, we introduce a numerically
stable and mathematically sound loss function based on the Itakura-Saito
divergence for learning state-value and action-value functions. We evaluate our
proposed loss function against established alternatives, both theoretically and
empirically. In the experimental section, we explore multiple financial
scenarios, some with known analytical solutions, and show that our loss
function outperforms the alternatives.