ChatPaper.aiChatPaper

이타쿠라-사이토 손실을 활용한 위험 회피형 강화 학습

Risk-Averse Reinforcement Learning with Itakura-Saito Loss

May 22, 2025
저자: Igor Udovichenko, Olivier Croissant, Anita Toleutaeva, Evgeny Burnaev, Alexander Korotin
cs.AI

초록

위험 회피형 강화 학습은 다양한 고위험 분야에서 응용되고 있습니다. 기대 수익을 극대화하는 것을 목표로 하는 고전적 강화 학습과 달리, 위험 회피형 에이전트는 위험을 최소화하는 정책을 선택하며, 때로는 기대 가치를 희생하기도 합니다. 이러한 선호도는 효용 이론을 통해 설명될 수 있습니다. 본 연구에서는 지수 효용 함수의 특정 사례에 초점을 맞추어, 벨만 방정식을 유도하고 다양한 강화 학습 알고리즘을 약간의 수정만으로 적용할 수 있음을 보여줍니다. 그러나 이러한 방법들은 과정 전반에 걸쳐 지수 계산이 필요하기 때문에 수치적 불안정성을 겪는 문제가 있습니다. 이를 해결하기 위해, 우리는 Itakura-Saito 발산을 기반으로 한 수치적으로 안정적이고 수학적으로 타당한 손실 함수를 제안하여 상태-가치 함수와 행동-가치 함수를 학습합니다. 우리는 제안된 손실 함수를 기존의 대안들과 이론적 및 실증적으로 비교 평가합니다. 실험 섹션에서는 여러 금융 시나리오를 탐구하며, 일부는 알려진 해석적 해법이 있는 경우를 포함하여, 우리의 손실 함수가 대안들을 능가함을 보여줍니다.
English
Risk-averse reinforcement learning finds application in various high-stakes fields. Unlike classical reinforcement learning, which aims to maximize expected returns, risk-averse agents choose policies that minimize risk, occasionally sacrificing expected value. These preferences can be framed through utility theory. We focus on the specific case of the exponential utility function, where we can derive the Bellman equations and employ various reinforcement learning algorithms with few modifications. However, these methods suffer from numerical instability due to the need for exponent computation throughout the process. To address this, we introduce a numerically stable and mathematically sound loss function based on the Itakura-Saito divergence for learning state-value and action-value functions. We evaluate our proposed loss function against established alternatives, both theoretically and empirically. In the experimental section, we explore multiple financial scenarios, some with known analytical solutions, and show that our loss function outperforms the alternatives.

Summary

AI-Generated Summary

PDF202May 23, 2025