Risikoscheues Reinforcement Learning mit Itakura-Saito-Verlust
Risk-Averse Reinforcement Learning with Itakura-Saito Loss
May 22, 2025
Autoren: Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin
cs.AI
Zusammenfassung
Risikoaverses Reinforcement Learning findet Anwendung in verschiedenen hochriskanten Bereichen. Im Gegensatz zum klassischen Reinforcement Learning, das darauf abzielt, den erwarteten Ertrag zu maximieren, wählen risikoaverse Agenten Strategien, die das Risiko minimieren, wobei sie gelegentlich den erwarteten Wert opfern. Diese Präferenzen können durch die Nutzentheorie formuliert werden. Wir konzentrieren uns auf den speziellen Fall der exponentiellen Nutzenfunktion, bei der wir die Bellman-Gleichungen ableiten und verschiedene Reinforcement-Learning-Algorithmen mit wenigen Anpassungen einsetzen können. Diese Methoden leiden jedoch unter numerischer Instabilität, da sie die Berechnung von Exponenten während des gesamten Prozesses erfordern. Um dies zu beheben, führen wir eine numerisch stabile und mathematisch fundierte Verlustfunktion basierend auf der Itakura-Saito-Divergenz für das Lernen von Zustands- und Aktionswertfunktionen ein. Wir bewerten unsere vorgeschlagene Verlustfunktion sowohl theoretisch als auch empirisch gegenüber etablierten Alternativen. Im experimentellen Teil untersuchen wir mehrere Finanzszenarien, einige mit bekannten analytischen Lösungen, und zeigen, dass unsere Verlustfunktion die Alternativen übertrifft.
English
Risk-averse reinforcement learning finds application in various high-stakes
fields. Unlike classical reinforcement learning, which aims to maximize
expected returns, risk-averse agents choose policies that minimize risk,
occasionally sacrificing expected value. These preferences can be framed
through utility theory. We focus on the specific case of the exponential
utility function, where we can derive the Bellman equations and employ various
reinforcement learning algorithms with few modifications. However, these
methods suffer from numerical instability due to the need for exponent
computation throughout the process. To address this, we introduce a numerically
stable and mathematically sound loss function based on the Itakura-Saito
divergence for learning state-value and action-value functions. We evaluate our
proposed loss function against established alternatives, both theoretically and
empirically. In the experimental section, we explore multiple financial
scenarios, some with known analytical solutions, and show that our loss
function outperforms the alternatives.Summary
AI-Generated Summary