XLand-100B: Un Dataset Su Larga Scala per l'Apprendimento per Rinforzo in Contesto Multi-Task
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
June 13, 2024
Autori: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov
cs.AI
Abstract
In seguito al successo del paradigma di apprendimento in-context nei modelli su larga scala per il linguaggio e la visione artificiale, il campo emergente dell'apprendimento per rinforzo in-context sta vivendo una rapida crescita. Tuttavia, il suo sviluppo è stato frenato dalla mancanza di benchmark impegnativi, poiché tutti gli esperimenti sono stati condotti in ambienti semplici e su dataset di piccole dimensioni. Presentiamo XLand-100B, un dataset su larga scala per l'apprendimento per rinforzo in-context basato sull'ambiente XLand-MiniGrid, come primo passo per alleviare questo problema. Contiene storie di apprendimento complete per quasi 30.000 task diversi, coprendo 100 miliardi di transizioni e 2,5 miliardi di episodi. La raccolta del dataset ha richiesto 50.000 ore di GPU, un impegno che va oltre le possibilità della maggior parte dei laboratori accademici. Insieme al dataset, forniamo gli strumenti per riprodurlo o espanderlo ulteriormente. Con questo sforzo significativo, miriamo a democratizzare la ricerca nel campo in rapida crescita dell'apprendimento per rinforzo in-context e a fornire una solida base per ulteriori scalabilità. Il codice è open-source e disponibile con licenza Apache 2.0 all'indirizzo https://github.com/dunno-lab/xland-minigrid-datasets.
English
Following the success of the in-context learning paradigm in large-scale
language and computer vision models, the recently emerging field of in-context
reinforcement learning is experiencing a rapid growth. However, its development
has been held back by the lack of challenging benchmarks, as all the
experiments have been carried out in simple environments and on small-scale
datasets. We present XLand-100B, a large-scale dataset for in-context
reinforcement learning based on the XLand-MiniGrid environment, as a first step
to alleviate this problem. It contains complete learning histories for nearly
30,000 different tasks, covering 100B transitions and 2.5B episodes. It
took 50,000 GPU hours to collect the dataset, which is beyond the reach of
most academic labs. Along with the dataset, we provide the utilities to
reproduce or expand it even further. With this substantial effort, we aim to
democratize research in the rapidly growing field of in-context reinforcement
learning and provide a solid foundation for further scaling. The code is
open-source and available under Apache 2.0 licence at
https://github.com/dunno-lab/xland-minigrid-datasets.