ChatPaper.aiChatPaper

Ophalende Beslissings-Transformer met Geheugen: Extern Geheugen voor In-context RL

Retrieval-Augmented Decision Transformer: External Memory for In-context RL

October 9, 2024
Auteurs: Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter
cs.AI

Samenvatting

In-context leren (ICL) is het vermogen van een model om een nieuwe taak te leren door een paar voorbeelden in zijn context te observeren. Hoewel wijdverbreid in NLP, is deze mogelijkheid recentelijk ook waargenomen in Reinforcement Learning (RL) omgevingen. Eerdere in-context RL methoden vereisen echter volledige episodes in de context van de agent. Aangezien complexe omgevingen doorgaans leiden tot lange episodes met schaarse beloningen, zijn deze methoden beperkt tot eenvoudige omgevingen met korte episodes. Om deze uitdagingen aan te pakken, introduceren we de Retrieval-Augmented Decision Transformer (RA-DT). RA-DT maakt gebruik van een extern geheugenmechanisme om eerdere ervaringen op te slaan waaruit het alleen relevante sub-trajecten ophaalt voor de huidige situatie. Het ophaalcomponent in RA-DT vereist geen training en kan volledig domein-agnostisch zijn. We evalueren de mogelijkheden van RA-DT op grid-wereldomgevingen, robot simulaties en procedureel gegenereerde videospellen. Op grid-werelden presteert RA-DT beter dan baselines, terwijl het slechts een fractie van hun contextlengte gebruikt. Bovendien belichten we de beperkingen van huidige in-context RL methoden in complexe omgevingen en bespreken we toekomstige richtingen. Om toekomstig onderzoek te vergemakkelijken, stellen we datasets beschikbaar voor vier van de overwogen omgevingen.
English
In-context learning (ICL) is the ability of a model to learn a new task by observing a few exemplars in its context. While prevalent in NLP, this capability has recently also been observed in Reinforcement Learning (RL) settings. Prior in-context RL methods, however, require entire episodes in the agent's context. Given that complex environments typically lead to long episodes with sparse rewards, these methods are constrained to simple environments with short episodes. To address these challenges, we introduce Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external memory mechanism to store past experiences from which it retrieves only sub-trajectories relevant for the current situation. The retrieval component in RA-DT does not require training and can be entirely domain-agnostic. We evaluate the capabilities of RA-DT on grid-world environments, robotics simulations, and procedurally-generated video games. On grid-worlds, RA-DT outperforms baselines, while using only a fraction of their context length. Furthermore, we illuminate the limitations of current in-context RL methods on complex environments and discuss future directions. To facilitate future research, we release datasets for four of the considered environments.

Summary

AI-Generated Summary

PDF72November 16, 2024