Transformateur de Décision Augmenté par Récupération : Mémoire Externe pour l'Apprentissage par Renforcement Contextuel
Retrieval-Augmented Decision Transformer: External Memory for In-context RL
October 9, 2024
Auteurs: Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter
cs.AI
Résumé
L'apprentissage en contexte (ICL) est la capacité d'un modèle à apprendre une nouvelle tâche en observant quelques exemples dans son contexte. Bien que courante en TAL, cette capacité a récemment été observée dans des environnements d'Apprentissage par Renforcement (RL). Cependant, les méthodes précédentes d'RL en contexte nécessitent des épisodes entiers dans le contexte de l'agent. Étant donné que les environnements complexes entraînent généralement des épisodes longs avec des récompenses rares, ces méthodes sont limitées aux environnements simples avec des épisodes courts. Pour relever ces défis, nous introduisons le Transformateur de Décision Augmenté par Récupération (RA-DT). RA-DT utilise un mécanisme de mémoire externe pour stocker les expériences passées à partir desquelles il récupère uniquement les sous-trajectoires pertinentes pour la situation actuelle. Le composant de récupération dans RA-DT ne nécessite pas d'entraînement et peut être entièrement indépendant du domaine. Nous évaluons les capacités de RA-DT sur des environnements de grille, des simulations robotiques et des jeux vidéo générés de manière procédurale. Sur les grilles, RA-DT surpasse les références, tout en n'utilisant qu'une fraction de leur longueur de contexte. De plus, nous mettons en lumière les limites des méthodes actuelles d'RL en contexte sur des environnements complexes et discutons des orientations futures. Pour faciliter la recherche future, nous mettons à disposition des ensembles de données pour quatre des environnements considérés.
English
In-context learning (ICL) is the ability of a model to learn a new task by
observing a few exemplars in its context. While prevalent in NLP, this
capability has recently also been observed in Reinforcement Learning (RL)
settings. Prior in-context RL methods, however, require entire episodes in the
agent's context. Given that complex environments typically lead to long
episodes with sparse rewards, these methods are constrained to simple
environments with short episodes. To address these challenges, we introduce
Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external
memory mechanism to store past experiences from which it retrieves only
sub-trajectories relevant for the current situation. The retrieval component in
RA-DT does not require training and can be entirely domain-agnostic. We
evaluate the capabilities of RA-DT on grid-world environments, robotics
simulations, and procedurally-generated video games. On grid-worlds, RA-DT
outperforms baselines, while using only a fraction of their context length.
Furthermore, we illuminate the limitations of current in-context RL methods on
complex environments and discuss future directions. To facilitate future
research, we release datasets for four of the considered environments.Summary
AI-Generated Summary