ChatPaper.aiChatPaper

XLand-100B: インコンテキスト強化学習のための大規模マルチタスクデータセット

XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

June 13, 2024
著者: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov
cs.AI

要旨

大規模言語モデルやコンピュータビジョンモデルにおけるインコンテキスト学習パラダイムの成功を受けて、最近登場したインコンテキスト強化学習の分野は急速な成長を遂げています。しかし、これまでの実験は単純な環境と小規模なデータセットで行われてきたため、挑戦的なベンチマークの不足がその発展を妨げてきました。本論文では、この問題を緩和するための第一歩として、XLand-MiniGrid環境に基づく大規模なインコンテキスト強化学習用データセット「XLand-100B」を紹介します。このデータセットには、約30,000の異なるタスクにおける完全な学習履歴が含まれており、1000億の遷移と25億のエピソードをカバーしています。データセットの収集には50,000 GPU時間を要し、ほとんどの学術研究室では手の届かない規模です。データセットとともに、それを再現またはさらに拡張するためのユーティリティも提供します。この大規模な取り組みを通じて、急速に成長するインコンテキスト強化学習の研究を民主化し、さらなるスケーリングのための堅固な基盤を提供することを目指しています。コードはオープンソースで、Apache 2.0ライセンスの下でhttps://github.com/dunno-lab/xland-minigrid-datasetsから利用可能です。
English
Following the success of the in-context learning paradigm in large-scale language and computer vision models, the recently emerging field of in-context reinforcement learning is experiencing a rapid growth. However, its development has been held back by the lack of challenging benchmarks, as all the experiments have been carried out in simple environments and on small-scale datasets. We present XLand-100B, a large-scale dataset for in-context reinforcement learning based on the XLand-MiniGrid environment, as a first step to alleviate this problem. It contains complete learning histories for nearly 30,000 different tasks, covering 100B transitions and 2.5B episodes. It took 50,000 GPU hours to collect the dataset, which is beyond the reach of most academic labs. Along with the dataset, we provide the utilities to reproduce or expand it even further. With this substantial effort, we aim to democratize research in the rapidly growing field of in-context reinforcement learning and provide a solid foundation for further scaling. The code is open-source and available under Apache 2.0 licence at https://github.com/dunno-lab/xland-minigrid-datasets.

Summary

AI-Generated Summary

PDF901December 6, 2024