ChatPaper.aiChatPaper

XLand-100B : Un jeu de données multi-tâches à grande échelle pour l'apprentissage par renforcement en contexte

XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

June 13, 2024
Auteurs: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov
cs.AI

Résumé

Suite au succès du paradigme d'apprentissage en contexte dans les modèles de langage et de vision par ordinateur à grande échelle, le domaine émergent de l'apprentissage par renforcement en contexte connaît une croissance rapide. Cependant, son développement a été freiné par le manque de benchmarks exigeants, car toutes les expériences ont été menées dans des environnements simples et sur des jeux de données de petite taille. Nous présentons XLand-100B, un jeu de données à grande échelle pour l'apprentissage par renforcement en contexte basé sur l'environnement XLand-MiniGrid, comme une première étape pour atténuer ce problème. Il contient des historiques d'apprentissage complets pour près de 30 000 tâches différentes, couvrant 100 milliards de transitions et 2,5 milliards d'épisodes. La collecte de ce jeu de données a nécessité 50 000 heures de GPU, ce qui dépasse les capacités de la plupart des laboratoires académiques. En plus du jeu de données, nous fournissons les utilitaires pour le reproduire ou l'étendre encore davantage. Avec cet effort substantiel, nous visons à démocratiser la recherche dans le domaine en pleine croissance de l'apprentissage par renforcement en contexte et à fournir une base solide pour un passage à l'échelle ultérieur. Le code est open-source et disponible sous licence Apache 2.0 à l'adresse https://github.com/dunno-lab/xland-minigrid-datasets.
English
Following the success of the in-context learning paradigm in large-scale language and computer vision models, the recently emerging field of in-context reinforcement learning is experiencing a rapid growth. However, its development has been held back by the lack of challenging benchmarks, as all the experiments have been carried out in simple environments and on small-scale datasets. We present XLand-100B, a large-scale dataset for in-context reinforcement learning based on the XLand-MiniGrid environment, as a first step to alleviate this problem. It contains complete learning histories for nearly 30,000 different tasks, covering 100B transitions and 2.5B episodes. It took 50,000 GPU hours to collect the dataset, which is beyond the reach of most academic labs. Along with the dataset, we provide the utilities to reproduce or expand it even further. With this substantial effort, we aim to democratize research in the rapidly growing field of in-context reinforcement learning and provide a solid foundation for further scaling. The code is open-source and available under Apache 2.0 licence at https://github.com/dunno-lab/xland-minigrid-datasets.

Summary

AI-Generated Summary

PDF901December 6, 2024