ChatPaper.aiChatPaper

深層強化学習の理解と診断

Understanding and Diagnosing Deep Reinforcement Learning

June 23, 2024
著者: Ezgi Korkmaz
cs.AI

要旨

深層ニューラルポリシーは最近、バイオテクノロジーから自動化された金融システムまで、多様な分野で導入されています。しかし、価値関数を近似するために深層ニューラルネットワークを利用することは、特に高度に非凸で複雑な深層ニューラル多様体に起因する、認識不能で非ロバストな特徴に対するポリシー意思決定の感度に関して、決定境界の安定性に関する懸念を引き起こします。これらの懸念は、深層ニューラルポリシーによる推論とその根本的な限界を理解する上での障害となります。したがって、ニューラルネットワークポリシーの学習表現における感度を理解するための技術を開発することが極めて重要です。これを実現するために、時間と空間にわたる深層ニューラルポリシーの決定境界における不安定な方向を体系的に分析する、理論的に基づいた手法を導入します。Arcade Learning Environment (ALE) での実験を通じて、相関する不安定方向を特定し、サンプルの変化がニューラルポリシーの風景における敏感な方向の集合をどのように再形成するかを測定するための我々の手法の有効性を実証します。最も重要なこととして、最先端のロバストトレーニング技術が、標準的なトレーニングと比較して、時間の経過とともに劇的に大きな振動を示す、互いに素な不安定方向の学習をもたらすことを示します。我々は、我々の結果が強化学習ポリシーによる意思決定プロセスの基本的な特性を明らかにし、信頼性とロバスト性を備えた深層ニューラルポリシーを構築するのに役立つと信じています。
English
Deep neural policies have recently been installed in a diverse range of settings, from biotechnology to automated financial systems. However, the utilization of deep neural networks to approximate the value function leads to concerns on the decision boundary stability, in particular, with regard to the sensitivity of policy decision making to indiscernible, non-robust features due to highly non-convex and complex deep neural manifolds. These concerns constitute an obstruction to understanding the reasoning made by deep neural policies, and their foundational limitations. Hence, it is crucial to develop techniques that aim to understand the sensitivities in the learnt representations of neural network policies. To achieve this we introduce a theoretically founded method that provides a systematic analysis of the unstable directions in the deep neural policy decision boundary across both time and space. Through experiments in the Arcade Learning Environment (ALE), we demonstrate the effectiveness of our technique for identifying correlated directions of instability, and for measuring how sample shifts remold the set of sensitive directions in the neural policy landscape. Most importantly, we demonstrate that state-of-the-art robust training techniques yield learning of disjoint unstable directions, with dramatically larger oscillations over time, when compared to standard training. We believe our results reveal the fundamental properties of the decision process made by reinforcement learning policies, and can help in constructing reliable and robust deep neural policies.

Summary

AI-Generated Summary

PDF91November 29, 2024