ChatPaper.aiChatPaper

Compreensão e Diagnóstico do Aprendizado por Reforço Profundo

Understanding and Diagnosing Deep Reinforcement Learning

June 23, 2024
Autores: Ezgi Korkmaz
cs.AI

Resumo

Políticas neurais profundas foram recentemente implementadas em uma ampla gama de cenários, desde biotecnologia até sistemas financeiros automatizados. No entanto, a utilização de redes neurais profundas para aproximar a função de valor levanta preocupações sobre a estabilidade do limite de decisão, em particular, em relação à sensibilidade da tomada de decisão da política a características indiscerníveis e não robustas devido a variedades neurais profundas altamente não convexas e complexas. Essas preocupações representam um obstáculo para a compreensão do raciocínio feito pelas políticas neurais profundas e suas limitações fundamentais. Portanto, é crucial desenvolver técnicas que visem compreender as sensibilidades nas representações aprendidas das políticas de redes neurais. Para alcançar isso, introduzimos um método fundamentado teoricamente que fornece uma análise sistemática das direções instáveis no limite de decisão da política neural profunda ao longo do tempo e do espaço. Através de experimentos no Ambiente de Aprendizado de Arcade (ALE), demonstramos a eficácia de nossa técnica para identificar direções correlacionadas de instabilidade e para medir como mudanças nas amostras remodelam o conjunto de direções sensíveis no panorama da política neural. Mais importante ainda, demonstramos que técnicas de treinamento robustas de última geração resultam no aprendizado de direções instáveis disjuntas, com oscilações dramaticamente maiores ao longo do tempo, em comparação com o treinamento padrão. Acreditamos que nossos resultados revelam as propriedades fundamentais do processo de decisão feito por políticas de aprendizado por reforço e podem ajudar na construção de políticas neurais profundas confiáveis e robustas.
English
Deep neural policies have recently been installed in a diverse range of settings, from biotechnology to automated financial systems. However, the utilization of deep neural networks to approximate the value function leads to concerns on the decision boundary stability, in particular, with regard to the sensitivity of policy decision making to indiscernible, non-robust features due to highly non-convex and complex deep neural manifolds. These concerns constitute an obstruction to understanding the reasoning made by deep neural policies, and their foundational limitations. Hence, it is crucial to develop techniques that aim to understand the sensitivities in the learnt representations of neural network policies. To achieve this we introduce a theoretically founded method that provides a systematic analysis of the unstable directions in the deep neural policy decision boundary across both time and space. Through experiments in the Arcade Learning Environment (ALE), we demonstrate the effectiveness of our technique for identifying correlated directions of instability, and for measuring how sample shifts remold the set of sensitive directions in the neural policy landscape. Most importantly, we demonstrate that state-of-the-art robust training techniques yield learning of disjoint unstable directions, with dramatically larger oscillations over time, when compared to standard training. We believe our results reveal the fundamental properties of the decision process made by reinforcement learning policies, and can help in constructing reliable and robust deep neural policies.
PDF101November 29, 2024