XLand-100B: Um Conjunto de Dados em Grande Escala para Aprendizado por Reforço em Contexto Multi-Tarefa
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
June 13, 2024
Autores: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov
cs.AI
Resumo
Após o sucesso do paradigma de aprendizado em contexto em modelos de linguagem e visão computacional em grande escala, o campo emergente de aprendizado por reforço em contexto está experimentando um crescimento acelerado. No entanto, seu desenvolvimento tem sido limitado pela falta de benchmarks desafiadores, já que todos os experimentos foram realizados em ambientes simples e com conjuntos de dados em pequena escala. Apresentamos o XLand-100B, um conjunto de dados em grande escala para aprendizado por reforço em contexto baseado no ambiente XLand-MiniGrid, como um primeiro passo para aliviar esse problema. Ele contém históricos completos de aprendizado para quase 30.000 tarefas diferentes, abrangendo 100 bilhões de transições e 2,5 bilhões de episódios. Foram necessárias 50.000 horas de GPU para coletar o conjunto de dados, o que está além do alcance da maioria dos laboratórios acadêmicos. Junto com o conjunto de dados, fornecemos as ferramentas para reproduzi-lo ou expandi-lo ainda mais. Com esse esforço substancial, visamos democratizar a pesquisa no campo em rápido crescimento do aprendizado por reforço em contexto e fornecer uma base sólida para futuras escalas. O código é de código aberto e está disponível sob a licença Apache 2.0 em https://github.com/dunno-lab/xland-minigrid-datasets.
English
Following the success of the in-context learning paradigm in large-scale
language and computer vision models, the recently emerging field of in-context
reinforcement learning is experiencing a rapid growth. However, its development
has been held back by the lack of challenging benchmarks, as all the
experiments have been carried out in simple environments and on small-scale
datasets. We present XLand-100B, a large-scale dataset for in-context
reinforcement learning based on the XLand-MiniGrid environment, as a first step
to alleviate this problem. It contains complete learning histories for nearly
30,000 different tasks, covering 100B transitions and 2.5B episodes. It
took 50,000 GPU hours to collect the dataset, which is beyond the reach of
most academic labs. Along with the dataset, we provide the utilities to
reproduce or expand it even further. With this substantial effort, we aim to
democratize research in the rapidly growing field of in-context reinforcement
learning and provide a solid foundation for further scaling. The code is
open-source and available under Apache 2.0 licence at
https://github.com/dunno-lab/xland-minigrid-datasets.