Abruf-erweiterter Entscheidungs-Transformer: Externer Speicher für RL im Kontext
Retrieval-Augmented Decision Transformer: External Memory for In-context RL
October 9, 2024
Autoren: Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter
cs.AI
Zusammenfassung
Das Lernen im Kontext (ICL) bezeichnet die Fähigkeit eines Modells, eine neue Aufgabe zu erlernen, indem es einige Beispiele in seinem Kontext beobachtet. Während dies in der natürlichen Sprachverarbeitung (NLP) weit verbreitet ist, wurde diese Fähigkeit kürzlich auch in Einstellungen des Reinforcement Learning (RL) beobachtet. Bisherige in-Kontext-RL-Methoden erfordern jedoch gesamte Episoden im Kontext des Agenten. Da komplexe Umgebungen in der Regel zu langen Episoden mit spärlichen Belohnungen führen, sind diese Methoden auf einfache Umgebungen mit kurzen Episoden beschränkt. Um diese Herausforderungen anzugehen, stellen wir den Retrieval-augmentierten Entscheidungstransformer (RA-DT) vor. RA-DT verwendet einen externen Speichermechanismus, um vergangene Erfahrungen zu speichern, aus denen es nur Teilpfade abruft, die für die aktuelle Situation relevant sind. Die Abrufkomponente in RA-DT erfordert kein Training und kann vollständig domänenagnostisch sein. Wir bewerten die Fähigkeiten von RA-DT in Gitterwelten, Robotersimulationen und prozedural generierten Videospielen. In Gitterwelten übertrifft RA-DT die Baselines, während es nur einen Bruchteil ihrer Kontextlänge verwendet. Darüber hinaus beleuchten wir die Grenzen der aktuellen in-Kontext-RL-Methoden in komplexen Umgebungen und diskutieren zukünftige Richtungen. Um zukünftige Forschung zu erleichtern, veröffentlichen wir Datensätze für vier der betrachteten Umgebungen.
English
In-context learning (ICL) is the ability of a model to learn a new task by
observing a few exemplars in its context. While prevalent in NLP, this
capability has recently also been observed in Reinforcement Learning (RL)
settings. Prior in-context RL methods, however, require entire episodes in the
agent's context. Given that complex environments typically lead to long
episodes with sparse rewards, these methods are constrained to simple
environments with short episodes. To address these challenges, we introduce
Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external
memory mechanism to store past experiences from which it retrieves only
sub-trajectories relevant for the current situation. The retrieval component in
RA-DT does not require training and can be entirely domain-agnostic. We
evaluate the capabilities of RA-DT on grid-world environments, robotics
simulations, and procedurally-generated video games. On grid-worlds, RA-DT
outperforms baselines, while using only a fraction of their context length.
Furthermore, we illuminate the limitations of current in-context RL methods on
complex environments and discuss future directions. To facilitate future
research, we release datasets for four of the considered environments.Summary
AI-Generated Summary