ChatPaper.aiChatPaper

XLand-100B: Een grootschalige multi-taskdataset voor in-context reinforcement learning

XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

June 13, 2024
Auteurs: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov
cs.AI

Samenvatting

Na het succes van het in-context learning paradigma in grootschalige taal- en computervisie-modellen, ervaart het recentelijk opkomende veld van in-context reinforcement learning een snelle groei. De ontwikkeling ervan is echter geremd door het ontbreken van uitdagende benchmarks, aangezien alle experimenten zijn uitgevoerd in eenvoudige omgevingen en op kleinschalige datasets. Wij presenteren XLand-100B, een grootschalige dataset voor in-context reinforcement learning gebaseerd op de XLand-MiniGrid-omgeving, als een eerste stap om dit probleem te verlichten. Het bevat complete leerhistorieën voor bijna 30.000 verschillende taken, met 100B overgangen en 2,5B episodes. Het kostte 50.000 GPU-uren om de dataset te verzamelen, wat buiten het bereik van de meeste academische labs valt. Naast de dataset bieden we de hulpmiddelen om deze te reproduceren of verder uit te breiden. Met deze aanzienlijke inspanning streven we ernaar om onderzoek in het snelgroeiende veld van in-context reinforcement learning te democratiseren en een solide basis te bieden voor verdere schaalvergroting. De code is open-source en beschikbaar onder de Apache 2.0-licentie op https://github.com/dunno-lab/xland-minigrid-datasets.
English
Following the success of the in-context learning paradigm in large-scale language and computer vision models, the recently emerging field of in-context reinforcement learning is experiencing a rapid growth. However, its development has been held back by the lack of challenging benchmarks, as all the experiments have been carried out in simple environments and on small-scale datasets. We present XLand-100B, a large-scale dataset for in-context reinforcement learning based on the XLand-MiniGrid environment, as a first step to alleviate this problem. It contains complete learning histories for nearly 30,000 different tasks, covering 100B transitions and 2.5B episodes. It took 50,000 GPU hours to collect the dataset, which is beyond the reach of most academic labs. Along with the dataset, we provide the utilities to reproduce or expand it even further. With this substantial effort, we aim to democratize research in the rapidly growing field of in-context reinforcement learning and provide a solid foundation for further scaling. The code is open-source and available under Apache 2.0 licence at https://github.com/dunno-lab/xland-minigrid-datasets.
PDF891January 17, 2026