Apprentissage par Renforcement Averse au Risque avec la Perte d'Itakura-Saito
Risk-Averse Reinforcement Learning with Itakura-Saito Loss
May 22, 2025
Auteurs: Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin
cs.AI
Résumé
L'apprentissage par renforcement averse au risque trouve des applications dans divers domaines à enjeux élevés. Contrairement à l'apprentissage par renforcement classique, qui vise à maximiser les rendements attendus, les agents averses au risque choisissent des politiques qui minimisent le risque, sacrifiant parfois la valeur attendue. Ces préférences peuvent être formulées à travers la théorie de l'utilité. Nous nous concentrons sur le cas spécifique de la fonction d'utilité exponentielle, où nous pouvons dériver les équations de Bellman et employer divers algorithmes d'apprentissage par renforcement avec peu de modifications. Cependant, ces méthodes souffrent d'instabilité numérique en raison de la nécessité de calculer des exponentielles tout au long du processus. Pour remédier à cela, nous introduisons une fonction de perte numériquement stable et mathématiquement solide basée sur la divergence d'Itakura-Saito pour l'apprentissage des fonctions de valeur d'état et d'action. Nous évaluons notre fonction de perte proposée par rapport à des alternatives établies, à la fois théoriquement et empiriquement. Dans la section expérimentale, nous explorons plusieurs scénarios financiers, certains avec des solutions analytiques connues, et montrons que notre fonction de perte surpasse les alternatives.
English
Risk-averse reinforcement learning finds application in various high-stakes
fields. Unlike classical reinforcement learning, which aims to maximize
expected returns, risk-averse agents choose policies that minimize risk,
occasionally sacrificing expected value. These preferences can be framed
through utility theory. We focus on the specific case of the exponential
utility function, where we can derive the Bellman equations and employ various
reinforcement learning algorithms with few modifications. However, these
methods suffer from numerical instability due to the need for exponent
computation throughout the process. To address this, we introduce a numerically
stable and mathematically sound loss function based on the Itakura-Saito
divergence for learning state-value and action-value functions. We evaluate our
proposed loss function against established alternatives, both theoretically and
empirically. In the experimental section, we explore multiple financial
scenarios, some with known analytical solutions, and show that our loss
function outperforms the alternatives.Summary
AI-Generated Summary