Apprendre à identifier les états critiques pour l'apprentissage par renforcement à partir de vidéos
Learning to Identify Critical States for Reinforcement Learning from Videos
August 15, 2023
Auteurs: Haozhe Liu, Mingchen Zhuge, Bing Li, Yuhui Wang, Francesco Faccio, Bernard Ghanem, Jürgen Schmidhuber
cs.AI
Résumé
Les travaux récents sur l'apprentissage par renforcement profond (DRL) ont montré que des informations algorithmiques sur les bonnes politiques peuvent être extraites de données hors ligne qui ne contiennent pas d'informations explicites sur les actions exécutées. Par exemple, des vidéos d'humains ou de robots peuvent véhiculer beaucoup d'informations implicites sur les séquences d'actions récompensées, mais une machine DRL qui souhaite tirer profit de l'observation de telles vidéos doit d'abord apprendre par elle-même à identifier et à reconnaître les états/actions/récompenses pertinents. Sans s'appuyer sur des annotations de référence, notre nouvelle méthode, appelée Deep State Identifier, apprend à prédire les retours à partir d'épisodes encodés sous forme de vidéos. Elle utilise ensuite une sorte d'analyse de sensibilité basée sur des masques pour extraire/identifier les états critiques importants. Des expériences approfondies mettent en lumière le potentiel de notre méthode pour comprendre et améliorer le comportement des agents. Le code source et les ensembles de données générés sont disponibles à l'adresse suivante : https://github.com/AI-Initiative-KAUST/VideoRLCS.
English
Recent work on deep reinforcement learning (DRL) has pointed out that
algorithmic information about good policies can be extracted from offline data
which lack explicit information about executed actions. For example, videos of
humans or robots may convey a lot of implicit information about rewarding
action sequences, but a DRL machine that wants to profit from watching such
videos must first learn by itself to identify and recognize relevant
states/actions/rewards. Without relying on ground-truth annotations, our new
method called Deep State Identifier learns to predict returns from episodes
encoded as videos. Then it uses a kind of mask-based sensitivity analysis to
extract/identify important critical states. Extensive experiments showcase our
method's potential for understanding and improving agent behavior. The source
code and the generated datasets are available at
https://github.com/AI-Initiative-KAUST/VideoRLCS.