XLand-100B: Ein umfangreiches Multi-Task-Datenset für kontextbezogenes Reinforcement Learning
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
June 13, 2024
Autoren: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov
cs.AI
Zusammenfassung
Nach dem Erfolg des In-Context-Lernparadigmas in groß angelegten Sprach- und Computer Vision-Modellen erlebt das kürzlich aufkommende Gebiet des In-Context-Reinforcement-Lernens ein rasches Wachstum. Allerdings wird seine Entwicklung durch den Mangel an anspruchsvollen Benchmarks gehemmt, da alle Experimente in einfachen Umgebungen und auf kleinen Datensätzen durchgeführt wurden. Wir präsentieren XLand-100B, einen groß angelegten Datensatz für In-Context-Reinforcement-Learning, basierend auf der XLand-MiniGrid-Umgebung, als ersten Schritt zur Behebung dieses Problems. Er enthält vollständige Lernverläufe für nahezu 30.000 verschiedene Aufgaben, die 100 Milliarden Übergänge und 2,5 Milliarden Episoden abdecken. Es dauerte 50.000 GPU-Stunden, um den Datensatz zu sammeln, was die meisten akademischen Labore übersteigt. Zusammen mit dem Datensatz stellen wir die Tools zur Verfügung, um ihn zu reproduzieren oder sogar weiter auszubauen. Mit diesem erheblichen Aufwand zielen wir darauf ab, die Forschung im schnell wachsenden Bereich des In-Context-Reinforcement-Lernens zu demokratisieren und eine solide Grundlage für weitere Skalierung zu schaffen. Der Code ist Open-Source und unter der Apache 2.0 Lizenz verfügbar unter https://github.com/dunno-lab/xland-minigrid-datasets.
English
Following the success of the in-context learning paradigm in large-scale
language and computer vision models, the recently emerging field of in-context
reinforcement learning is experiencing a rapid growth. However, its development
has been held back by the lack of challenging benchmarks, as all the
experiments have been carried out in simple environments and on small-scale
datasets. We present XLand-100B, a large-scale dataset for in-context
reinforcement learning based on the XLand-MiniGrid environment, as a first step
to alleviate this problem. It contains complete learning histories for nearly
30,000 different tasks, covering 100B transitions and 2.5B episodes. It
took 50,000 GPU hours to collect the dataset, which is beyond the reach of
most academic labs. Along with the dataset, we provide the utilities to
reproduce or expand it even further. With this substantial effort, we aim to
democratize research in the rapidly growing field of in-context reinforcement
learning and provide a solid foundation for further scaling. The code is
open-source and available under Apache 2.0 licence at
https://github.com/dunno-lab/xland-minigrid-datasets.Summary
AI-Generated Summary