Apprendre à identifier les états critiques pour l'apprentissage par renforcement à partir de vidéos

Résumé

Les travaux récents sur l'apprentissage par renforcement profond (DRL) ont montré que des informations algorithmiques sur les bonnes politiques peuvent être extraites de données hors ligne qui ne contiennent pas d'informations explicites sur les actions exécutées. Par exemple, des vidéos d'humains ou de robots peuvent véhiculer beaucoup d'informations implicites sur les séquences d'actions récompensées, mais une machine DRL qui souhaite tirer profit de l'observation de telles vidéos doit d'abord apprendre par elle-même à identifier et à reconnaître les états/actions/récompenses pertinents. Sans s'appuyer sur des annotations de référence, notre nouvelle méthode, appelée Deep State Identifier, apprend à prédire les retours à partir d'épisodes encodés sous forme de vidéos. Elle utilise ensuite une sorte d'analyse de sensibilité basée sur des masques pour extraire/identifier les états critiques importants. Des expériences approfondies mettent en lumière le potentiel de notre méthode pour comprendre et améliorer le comportement des agents. Le code source et les ensembles de données générés sont disponibles à l'adresse suivante : https://github.com/AI-Initiative-KAUST/VideoRLCS.

English

Recent work on deep reinforcement learning (DRL) has pointed out that algorithmic information about good policies can be extracted from offline data which lack explicit information about executed actions. For example, videos of humans or robots may convey a lot of implicit information about rewarding action sequences, but a DRL machine that wants to profit from watching such videos must first learn by itself to identify and recognize relevant states/actions/rewards. Without relying on ground-truth annotations, our new method called Deep State Identifier learns to predict returns from episodes encoded as videos. Then it uses a kind of mask-based sensitivity analysis to extract/identify important critical states. Extensive experiments showcase our method's potential for understanding and improving agent behavior. The source code and the generated datasets are available at https://github.com/AI-Initiative-KAUST/VideoRLCS.

Apprendre à identifier les états critiques pour l'apprentissage par renforcement à partir de vidéos

Learning to Identify Critical States for Reinforcement Learning from Videos

Résumé

Support