ChatPaper.aiChatPaper

Verständnis und Diagnose von Deep Reinforcement Learning

Understanding and Diagnosing Deep Reinforcement Learning

June 23, 2024
Autoren: Ezgi Korkmaz
cs.AI

Zusammenfassung

Tiefe neuronale Richtlinien wurden kürzlich in einer Vielzahl von Bereichen implementiert, von der Biotechnologie bis zu automatisierten Finanzsystemen. Die Verwendung von tiefen neuronalen Netzwerken zur Approximation der Wertefunktion führt jedoch zu Bedenken hinsichtlich der Stabilität der Entscheidungsgrenze, insbesondere in Bezug auf die Empfindlichkeit der Entscheidungsfindung gegenüber nicht erkennbaren, nicht robusten Merkmalen aufgrund hochgradig nicht-konvexer und komplexer neuronaler Tiefenmanigfaltigkeiten. Diese Bedenken stellen ein Hindernis für das Verständnis der von tiefen neuronalen Richtlinien getroffenen Entscheidungen und ihrer grundlegenden Einschränkungen dar. Daher ist es entscheidend, Techniken zu entwickeln, die darauf abzielen, die Empfindlichkeiten in den erlernten Darstellungen von neuronalen Netzwerkrichtlinien zu verstehen. Um dies zu erreichen, führen wir eine theoretisch fundierte Methode ein, die eine systematische Analyse der instabilen Richtungen an der Entscheidungsgrenze der tiefen neuronalen Richtlinie über Zeit und Raum hinweg ermöglicht. Durch Experimente in der Arcade Learning Environment (ALE) zeigen wir die Wirksamkeit unserer Technik bei der Identifizierung korrelierter instabiler Richtungen und bei der Messung, wie Stichprobenverschiebungen die Menge der sensiblen Richtungen in der neuronalen Richtlinienlandschaft umformen. Am wichtigsten ist, dass wir zeigen, dass robuste Trainingstechniken auf dem neuesten Stand des Wissens das Lernen von voneinander getrennten instabilen Richtungen ermöglichen, die im Vergleich zum Standardtraining über die Zeit dramatisch größere Oszillationen aufweisen. Wir glauben, dass unsere Ergebnisse die grundlegenden Eigenschaften des Entscheidungsprozesses, der von Richtlinien des verstärkenden Lernens getroffen wird, aufzeigen und dabei helfen können, zuverlässige und robuste tiefe neuronale Richtlinien zu erstellen.
English
Deep neural policies have recently been installed in a diverse range of settings, from biotechnology to automated financial systems. However, the utilization of deep neural networks to approximate the value function leads to concerns on the decision boundary stability, in particular, with regard to the sensitivity of policy decision making to indiscernible, non-robust features due to highly non-convex and complex deep neural manifolds. These concerns constitute an obstruction to understanding the reasoning made by deep neural policies, and their foundational limitations. Hence, it is crucial to develop techniques that aim to understand the sensitivities in the learnt representations of neural network policies. To achieve this we introduce a theoretically founded method that provides a systematic analysis of the unstable directions in the deep neural policy decision boundary across both time and space. Through experiments in the Arcade Learning Environment (ALE), we demonstrate the effectiveness of our technique for identifying correlated directions of instability, and for measuring how sample shifts remold the set of sensitive directions in the neural policy landscape. Most importantly, we demonstrate that state-of-the-art robust training techniques yield learning of disjoint unstable directions, with dramatically larger oscillations over time, when compared to standard training. We believe our results reveal the fundamental properties of the decision process made by reinforcement learning policies, and can help in constructing reliable and robust deep neural policies.

Summary

AI-Generated Summary

PDF91November 29, 2024