XLand-100B: インコンテキスト強化学習のための大規模マルチタスクデータセットXLand-100B: A Large-Scale Multi-Task Dataset for In-Context
Reinforcement Learning
大規模言語モデルやコンピュータビジョンモデルにおけるインコンテキスト学習パラダイムの成功を受けて、最近登場したインコンテキスト強化学習の分野は急速な成長を遂げています。しかし、これまでの実験は単純な環境と小規模なデータセットで行われてきたため、挑戦的なベンチマークの不足がその発展を妨げてきました。本論文では、この問題を緩和するための第一歩として、XLand-MiniGrid環境に基づく大規模なインコンテキスト強化学習用データセット「XLand-100B」を紹介します。このデータセットには、約30,000の異なるタスクにおける完全な学習履歴が含まれており、1000億の遷移と25億のエピソードをカバーしています。データセットの収集には50,000 GPU時間を要し、ほとんどの学術研究室では手の届かない規模です。データセットとともに、それを再現またはさらに拡張するためのユーティリティも提供します。この大規模な取り組みを通じて、急速に成長するインコンテキスト強化学習の研究を民主化し、さらなるスケーリングのための堅固な基盤を提供することを目指しています。コードはオープンソースで、Apache 2.0ライセンスの下でhttps://github.com/dunno-lab/xland-minigrid-datasetsから利用可能です。