Comprendre et diagnostiquer l'apprentissage par renforcement profond
Understanding and Diagnosing Deep Reinforcement Learning
June 23, 2024
Auteurs: Ezgi Korkmaz
cs.AI
Résumé
Les politiques basées sur des réseaux neuronaux profonds ont récemment été déployées dans un large éventail de domaines, allant de la biotechnologie aux systèmes financiers automatisés. Cependant, l'utilisation de réseaux neuronaux profonds pour approximer la fonction de valeur soulève des préoccupations concernant la stabilité des frontières de décision, en particulier en ce qui concerne la sensibilité des décisions politiques à des caractéristiques imperceptibles et non robustes, dues à la nature hautement non convexe et complexe des variétés des réseaux neuronaux profonds. Ces préoccupations constituent un obstacle à la compréhension du raisonnement sous-jacent aux politiques neuronales profondes et à leurs limitations fondamentales. Par conséquent, il est crucial de développer des techniques visant à comprendre les sensibilités dans les représentations apprises par les politiques de réseaux neuronaux. Pour y parvenir, nous introduisons une méthode théoriquement fondée qui fournit une analyse systématique des directions instables dans la frontière de décision des politiques neuronales profondes, à la fois dans le temps et dans l'espace. À travers des expériences menées dans l'environnement Arcade Learning Environment (ALE), nous démontrons l'efficacité de notre technique pour identifier les directions corrélées d'instabilité et pour mesurer comment les changements d'échantillons remodelent l'ensemble des directions sensibles dans le paysage des politiques neuronales. Plus important encore, nous montrons que les techniques d'apprentissage robuste de pointe entraînent l'apprentissage de directions instables disjointes, avec des oscillations considérablement plus importantes dans le temps, par rapport à l'apprentissage standard. Nous pensons que nos résultats révèlent les propriétés fondamentales du processus de décision des politiques d'apprentissage par renforcement et peuvent contribuer à la construction de politiques neuronales profondes fiables et robustes.
English
Deep neural policies have recently been installed in a diverse range of
settings, from biotechnology to automated financial systems. However, the
utilization of deep neural networks to approximate the value function leads to
concerns on the decision boundary stability, in particular, with regard to the
sensitivity of policy decision making to indiscernible, non-robust features due
to highly non-convex and complex deep neural manifolds. These concerns
constitute an obstruction to understanding the reasoning made by deep neural
policies, and their foundational limitations. Hence, it is crucial to develop
techniques that aim to understand the sensitivities in the learnt
representations of neural network policies. To achieve this we introduce a
theoretically founded method that provides a systematic analysis of the
unstable directions in the deep neural policy decision boundary across both
time and space. Through experiments in the Arcade Learning Environment (ALE),
we demonstrate the effectiveness of our technique for identifying correlated
directions of instability, and for measuring how sample shifts remold the set
of sensitive directions in the neural policy landscape. Most importantly, we
demonstrate that state-of-the-art robust training techniques yield learning of
disjoint unstable directions, with dramatically larger oscillations over time,
when compared to standard training. We believe our results reveal the
fundamental properties of the decision process made by reinforcement learning
policies, and can help in constructing reliable and robust deep neural
policies.Summary
AI-Generated Summary