Verständnis und Diagnose von Deep Reinforcement Learning
Understanding and Diagnosing Deep Reinforcement Learning
June 23, 2024
Autoren: Ezgi Korkmaz
cs.AI
Zusammenfassung
Tiefe neuronale Richtlinien wurden kürzlich in einer Vielzahl von Bereichen implementiert, von der Biotechnologie bis zu automatisierten Finanzsystemen. Die Verwendung von tiefen neuronalen Netzwerken zur Approximation der Wertefunktion führt jedoch zu Bedenken hinsichtlich der Stabilität der Entscheidungsgrenze, insbesondere in Bezug auf die Empfindlichkeit der Entscheidungsfindung gegenüber nicht erkennbaren, nicht robusten Merkmalen aufgrund hochgradig nicht-konvexer und komplexer neuronaler Tiefenmanigfaltigkeiten. Diese Bedenken stellen ein Hindernis für das Verständnis der von tiefen neuronalen Richtlinien getroffenen Entscheidungen und ihrer grundlegenden Einschränkungen dar. Daher ist es entscheidend, Techniken zu entwickeln, die darauf abzielen, die Empfindlichkeiten in den erlernten Darstellungen von neuronalen Netzwerkrichtlinien zu verstehen. Um dies zu erreichen, führen wir eine theoretisch fundierte Methode ein, die eine systematische Analyse der instabilen Richtungen an der Entscheidungsgrenze der tiefen neuronalen Richtlinie über Zeit und Raum hinweg ermöglicht. Durch Experimente in der Arcade Learning Environment (ALE) zeigen wir die Wirksamkeit unserer Technik bei der Identifizierung korrelierter instabiler Richtungen und bei der Messung, wie Stichprobenverschiebungen die Menge der sensiblen Richtungen in der neuronalen Richtlinienlandschaft umformen. Am wichtigsten ist, dass wir zeigen, dass robuste Trainingstechniken auf dem neuesten Stand des Wissens das Lernen von voneinander getrennten instabilen Richtungen ermöglichen, die im Vergleich zum Standardtraining über die Zeit dramatisch größere Oszillationen aufweisen. Wir glauben, dass unsere Ergebnisse die grundlegenden Eigenschaften des Entscheidungsprozesses, der von Richtlinien des verstärkenden Lernens getroffen wird, aufzeigen und dabei helfen können, zuverlässige und robuste tiefe neuronale Richtlinien zu erstellen.
English
Deep neural policies have recently been installed in a diverse range of
settings, from biotechnology to automated financial systems. However, the
utilization of deep neural networks to approximate the value function leads to
concerns on the decision boundary stability, in particular, with regard to the
sensitivity of policy decision making to indiscernible, non-robust features due
to highly non-convex and complex deep neural manifolds. These concerns
constitute an obstruction to understanding the reasoning made by deep neural
policies, and their foundational limitations. Hence, it is crucial to develop
techniques that aim to understand the sensitivities in the learnt
representations of neural network policies. To achieve this we introduce a
theoretically founded method that provides a systematic analysis of the
unstable directions in the deep neural policy decision boundary across both
time and space. Through experiments in the Arcade Learning Environment (ALE),
we demonstrate the effectiveness of our technique for identifying correlated
directions of instability, and for measuring how sample shifts remold the set
of sensitive directions in the neural policy landscape. Most importantly, we
demonstrate that state-of-the-art robust training techniques yield learning of
disjoint unstable directions, with dramatically larger oscillations over time,
when compared to standard training. We believe our results reveal the
fundamental properties of the decision process made by reinforcement learning
policies, and can help in constructing reliable and robust deep neural
policies.Summary
AI-Generated Summary