リトリーバル拡張決定トランスフォーマー:インコンテキストRL用外部メモリ
Retrieval-Augmented Decision Transformer: External Memory for In-context RL
October 9, 2024
著者: Thomas Schmied, Fabian Paischer, Vihang Patil, Markus Hofmarcher, Razvan Pascanu, Sepp Hochreiter
cs.AI
要旨
インコンテキストラーニング(ICL)とは、モデルがその文脈でいくつかの例を観察することで新しいタスクを学習する能力です。NLPで一般的ですが、この能力は最近、強化学習(RL)の設定でも観察されています。ただし、従来のインコンテキストRL手法は、エージェントの文脈で完全なエピソードを必要としていました。複雑な環境が通常、報酬が少ない長いエピソードにつながるため、これらの手法は短いエピソードを持つ単純な環境に制約されています。これらの課題に対処するために、私たちはRetrieval-Augmented Decision Transformer(RA-DT)を導入します。RA-DTは、現在の状況に関連するサブトラジェクトのみを取得するために、過去の経験を格納する外部メモリメカニズムを使用します。RA-DTの検索コンポーネントはトレーニングを必要とせず、完全にドメインに依存しません。RA-DTの能力をグリッドワールド環境、ロボティクスシミュレーション、手続き的に生成されたビデオゲームで評価します。グリッドワールドでは、RA-DTはベースラインを上回り、それらの文脈長の一部しか使用しません。さらに、複雑な環境での現在のインコンテキストRL手法の制限を明らかにし、将来の方向性について議論します。将来の研究を支援するために、検討された環境のデータセットを公開します。
English
In-context learning (ICL) is the ability of a model to learn a new task by
observing a few exemplars in its context. While prevalent in NLP, this
capability has recently also been observed in Reinforcement Learning (RL)
settings. Prior in-context RL methods, however, require entire episodes in the
agent's context. Given that complex environments typically lead to long
episodes with sparse rewards, these methods are constrained to simple
environments with short episodes. To address these challenges, we introduce
Retrieval-Augmented Decision Transformer (RA-DT). RA-DT employs an external
memory mechanism to store past experiences from which it retrieves only
sub-trajectories relevant for the current situation. The retrieval component in
RA-DT does not require training and can be entirely domain-agnostic. We
evaluate the capabilities of RA-DT on grid-world environments, robotics
simulations, and procedurally-generated video games. On grid-worlds, RA-DT
outperforms baselines, while using only a fraction of their context length.
Furthermore, we illuminate the limitations of current in-context RL methods on
complex environments and discuss future directions. To facilitate future
research, we release datasets for four of the considered environments.Summary
AI-Generated Summary