Transformador de Decisión con Recuperación Aumentada: Memoria Externa para RL en Contexto
Retrieval-Augmented Decision Transformer: External Memory for In-context RL
October 9, 2024
Autores: Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter
cs.AI
Resumen
El aprendizaje en contexto (ICL) es la capacidad de un modelo para aprender una nueva tarea observando unos pocos ejemplos en su contexto. Aunque es común en Procesamiento de Lenguaje Natural (NLP), esta capacidad también se ha observado recientemente en entornos de Aprendizaje por Refuerzo (RL). Sin embargo, los métodos previos de RL en contexto requieren episodios completos en el contexto del agente. Dado que entornos complejos suelen resultar en episodios largos con recompensas escasas, estos métodos están limitados a entornos simples con episodios cortos. Para abordar estos desafíos, presentamos el Transformador de Decisión con Recuperación Aumentada (RA-DT). RA-DT emplea un mecanismo de memoria externa para almacenar experiencias pasadas de las cuales recupera solo subtrayectorias relevantes para la situación actual. El componente de recuperación en RA-DT no requiere entrenamiento y puede ser completamente independiente del dominio. Evaluamos las capacidades de RA-DT en entornos de mundo en cuadrícula, simulaciones de robótica y videojuegos generados proceduralmente. En los mundos en cuadrícula, RA-DT supera a los modelos base, utilizando solo una fracción de su longitud de contexto. Además, iluminamos las limitaciones de los métodos actuales de RL en contexto en entornos complejos y discutimos direcciones futuras. Para facilitar la investigación futura, liberamos conjuntos de datos para cuatro de los entornos considerados.
English
In-context learning (ICL) is the ability of a model to learn a new task by
observing a few exemplars in its context. While prevalent in NLP, this
capability has recently also been observed in Reinforcement Learning (RL)
settings. Prior in-context RL methods, however, require entire episodes in the
agent's context. Given that complex environments typically lead to long
episodes with sparse rewards, these methods are constrained to simple
environments with short episodes. To address these challenges, we introduce
Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external
memory mechanism to store past experiences from which it retrieves only
sub-trajectories relevant for the current situation. The retrieval component in
RA-DT does not require training and can be entirely domain-agnostic. We
evaluate the capabilities of RA-DT on grid-world environments, robotics
simulations, and procedurally-generated video games. On grid-worlds, RA-DT
outperforms baselines, while using only a fraction of their context length.
Furthermore, we illuminate the limitations of current in-context RL methods on
complex environments and discuss future directions. To facilitate future
research, we release datasets for four of the considered environments.