Трансформер для принятия решений с использованием поисковой памяти: внешняя память для контекстного обучения с подкреплением
Retrieval-Augmented Decision Transformer: External Memory for In-context RL
October 9, 2024
Авторы: Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter
cs.AI
Аннотация
Обучение в контексте (ICL) - это способность модели изучать новую задачу, наблюдая за несколькими образцами в ее контексте. Хотя это распространено в обработке естественного языка (NLP), эта возможность недавно также была замечена в настройках Обучения с Подкреплением (RL). Однако ранее существующие методы обучения в контексте RL требуют целые эпизоды в контексте агента. Учитывая, что сложные среды обычно приводят к длинным эпизодам с редкими вознаграждениями, эти методы ограничены простыми средами с короткими эпизодами. Для решения этих проблем мы представляем Решающий Трансформер с Поиском (RA-DT). RA-DT использует механизм внешней памяти для хранения прошлых опытов, из которых он извлекает только под-траектории, соответствующие текущей ситуации. Компонент поиска в RA-DT не требует обучения и может быть полностью доменно-независимым. Мы оцениваем возможности RA-DT на средах сетки, симуляциях робототехники и процедурно-генерируемых видеоиграх. На сетках RA-DT превосходит базовые показатели, используя только долю их длины контекста. Кроме того, мы раскрываем ограничения текущих методов обучения в контексте RL на сложных средах и обсуждаем будущие направления. Для облегчения будущих исследований мы выпускаем наборы данных для четырех рассматриваемых сред.
English
In-context learning (ICL) is the ability of a model to learn a new task by
observing a few exemplars in its context. While prevalent in NLP, this
capability has recently also been observed in Reinforcement Learning (RL)
settings. Prior in-context RL methods, however, require entire episodes in the
agent's context. Given that complex environments typically lead to long
episodes with sparse rewards, these methods are constrained to simple
environments with short episodes. To address these challenges, we introduce
Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external
memory mechanism to store past experiences from which it retrieves only
sub-trajectories relevant for the current situation. The retrieval component in
RA-DT does not require training and can be entirely domain-agnostic. We
evaluate the capabilities of RA-DT on grid-world environments, robotics
simulations, and procedurally-generated video games. On grid-worlds, RA-DT
outperforms baselines, while using only a fraction of their context length.
Furthermore, we illuminate the limitations of current in-context RL methods on
complex environments and discuss future directions. To facilitate future
research, we release datasets for four of the considered environments.Summary
AI-Generated Summary