ChatPaper.aiChatPaper

심층 강화 학습의 이해와 진단

Understanding and Diagnosing Deep Reinforcement Learning

June 23, 2024
저자: Ezgi Korkmaz
cs.AI

초록

딥 뉴럴 정책은 최근 생명공학부터 자동화된 금융 시스템에 이르기까지 다양한 분야에 적용되고 있다. 그러나 가치 함수를 근사하기 위해 딥 뉴럴 네트워크를 활용함에 따라, 특히 고도로 비볼록하고 복잡한 딥 뉴럴 매니폴드로 인해 미세하고 비견고한 특징들에 대한 정책 결정의 민감성과 관련하여 결정 경계의 안정성에 대한 우려가 제기되고 있다. 이러한 우려는 딥 뉴럴 정책이 내리는 결정의 논리와 그 근본적인 한계를 이해하는 데 방해가 된다. 따라서, 신경망 정책이 학습한 표현의 민감성을 이해하기 위한 기법을 개발하는 것이 중요하다. 이를 위해 우리는 시간과 공간에 걸쳐 딥 뉴럴 정책의 결정 경계에서 불안정한 방향을 체계적으로 분석할 수 있는 이론적으로 근거된 방법을 소개한다. 아케이드 학습 환경(ALE)에서의 실험을 통해, 우리는 상관관계가 있는 불안정 방향을 식별하고, 샘플 변화가 신경망 정책의 민감한 방향 집합을 어떻게 재구성하는지 측정하는 데 있어 우리 기법의 효과성을 입증한다. 무엇보다도, 우리는 최첨단 견고한 학습 기법이 표준 학습에 비해 시간에 따라 훨씬 더 큰 진폭을 가진 분리된 불안정 방향을 학습한다는 것을 보여준다. 우리는 이러한 결과가 강화 학습 정책의 결정 과정의 근본적인 특성을 드러내며, 신뢰할 수 있고 견고한 딥 뉴럴 정책을 구축하는 데 도움이 될 것이라고 믿는다.
English
Deep neural policies have recently been installed in a diverse range of settings, from biotechnology to automated financial systems. However, the utilization of deep neural networks to approximate the value function leads to concerns on the decision boundary stability, in particular, with regard to the sensitivity of policy decision making to indiscernible, non-robust features due to highly non-convex and complex deep neural manifolds. These concerns constitute an obstruction to understanding the reasoning made by deep neural policies, and their foundational limitations. Hence, it is crucial to develop techniques that aim to understand the sensitivities in the learnt representations of neural network policies. To achieve this we introduce a theoretically founded method that provides a systematic analysis of the unstable directions in the deep neural policy decision boundary across both time and space. Through experiments in the Arcade Learning Environment (ALE), we demonstrate the effectiveness of our technique for identifying correlated directions of instability, and for measuring how sample shifts remold the set of sensitive directions in the neural policy landscape. Most importantly, we demonstrate that state-of-the-art robust training techniques yield learning of disjoint unstable directions, with dramatically larger oscillations over time, when compared to standard training. We believe our results reveal the fundamental properties of the decision process made by reinforcement learning policies, and can help in constructing reliable and robust deep neural policies.

Summary

AI-Generated Summary

PDF91November 29, 2024