Transformador de Decisão com Recuperação Aumentada: Memória Externa para RL em Contexto
Retrieval-Augmented Decision Transformer: External Memory for In-context RL
October 9, 2024
Autores: Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter
cs.AI
Resumo
A aprendizagem em contexto (ICL) é a capacidade de um modelo aprender uma nova tarefa observando alguns exemplos em seu contexto. Embora predominante em PNL, essa capacidade também foi recentemente observada em configurações de Aprendizado por Reforço (RL). No entanto, os métodos anteriores de RL em contexto exigem episódios inteiros no contexto do agente. Dado que ambientes complexos geralmente resultam em episódios longos com recompensas esparsas, esses métodos são limitados a ambientes simples com episódios curtos. Para enfrentar esses desafios, apresentamos o Transformer de Decisão com Recuperação Aprimorada (RA-DT). O RA-DT utiliza um mecanismo de memória externa para armazenar experiências passadas das quais ele recupera apenas subtrajectórias relevantes para a situação atual. O componente de recuperação no RA-DT não requer treinamento e pode ser completamente independente do domínio. Avaliamos as capacidades do RA-DT em ambientes de mundo em grade, simulações de robótica e jogos de vídeo gerados proceduralmente. Em ambientes de mundo em grade, o RA-DT supera as bases, enquanto utiliza apenas uma fração do comprimento de contexto delas. Além disso, destacamos as limitações dos métodos atuais de RL em contexto em ambientes complexos e discutimos direções futuras. Para facilitar pesquisas futuras, disponibilizamos conjuntos de dados para quatro dos ambientes considerados.
English
In-context learning (ICL) is the ability of a model to learn a new task by
observing a few exemplars in its context. While prevalent in NLP, this
capability has recently also been observed in Reinforcement Learning (RL)
settings. Prior in-context RL methods, however, require entire episodes in the
agent's context. Given that complex environments typically lead to long
episodes with sparse rewards, these methods are constrained to simple
environments with short episodes. To address these challenges, we introduce
Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external
memory mechanism to store past experiences from which it retrieves only
sub-trajectories relevant for the current situation. The retrieval component in
RA-DT does not require training and can be entirely domain-agnostic. We
evaluate the capabilities of RA-DT on grid-world environments, robotics
simulations, and procedurally-generated video games. On grid-worlds, RA-DT
outperforms baselines, while using only a fraction of their context length.
Furthermore, we illuminate the limitations of current in-context RL methods on
complex environments and discuss future directions. To facilitate future
research, we release datasets for four of the considered environments.Summary
AI-Generated Summary