ChatPaper.aiChatPaper

Begrijpen en Diagnosticeren van Deep Reinforcement Learning

Understanding and Diagnosing Deep Reinforcement Learning

June 23, 2024
Auteurs: Ezgi Korkmaz
cs.AI

Samenvatting

Diepe neurale beleidsregels zijn recentelijk geïmplementeerd in een breed scala aan omgevingen, van biotechnologie tot geautomatiseerde financiële systemen. Het gebruik van diepe neurale netwerken om de waardefunctie te benaderen, leidt echter tot zorgen over de stabiliteit van de beslissingsgrens, met name met betrekking tot de gevoeligheid van beleidsbeslissingen voor onmerkbare, niet-robuste kenmerken als gevolg van sterk niet-convexe en complexe diepe neurale variëteiten. Deze zorgen vormen een belemmering voor het begrijpen van de redenering achter diepe neurale beleidsregels en hun fundamentele beperkingen. Daarom is het cruciaal om technieken te ontwikkelen die gericht zijn op het begrijpen van de gevoeligheden in de geleerde representaties van neurale netwerkbeleidsregels. Om dit te bereiken introduceren we een theoretisch onderbouwde methode die een systematische analyse biedt van de onstabiele richtingen in de beslissingsgrens van diepe neurale beleidsregels, zowel in tijd als ruimte. Door experimenten in de Arcade Learning Environment (ALE) demonstreren we de effectiviteit van onze techniek voor het identificeren van gecorreleerde richtingen van instabiliteit en voor het meten hoe verschuivingen in steekproeven de set van gevoelige richtingen in het neurale beleidslandschap hervormen. Het belangrijkste is dat we aantonen dat state-of-the-art robuuste trainingsmethoden leiden tot het leren van disjuncte onstabiele richtingen, met aanzienlijk grotere oscillaties over tijd, in vergelijking met standaardtraining. Wij geloven dat onze resultaten de fundamentele eigenschappen van het beslissingsproces van reinforcement learning-beleidsregels onthullen en kunnen helpen bij het construeren van betrouwbare en robuuste diepe neurale beleidsregels.
English
Deep neural policies have recently been installed in a diverse range of settings, from biotechnology to automated financial systems. However, the utilization of deep neural networks to approximate the value function leads to concerns on the decision boundary stability, in particular, with regard to the sensitivity of policy decision making to indiscernible, non-robust features due to highly non-convex and complex deep neural manifolds. These concerns constitute an obstruction to understanding the reasoning made by deep neural policies, and their foundational limitations. Hence, it is crucial to develop techniques that aim to understand the sensitivities in the learnt representations of neural network policies. To achieve this we introduce a theoretically founded method that provides a systematic analysis of the unstable directions in the deep neural policy decision boundary across both time and space. Through experiments in the Arcade Learning Environment (ALE), we demonstrate the effectiveness of our technique for identifying correlated directions of instability, and for measuring how sample shifts remold the set of sensitive directions in the neural policy landscape. Most importantly, we demonstrate that state-of-the-art robust training techniques yield learning of disjoint unstable directions, with dramatically larger oscillations over time, when compared to standard training. We believe our results reveal the fundamental properties of the decision process made by reinforcement learning policies, and can help in constructing reliable and robust deep neural policies.
PDF101November 29, 2024