XLand-100B : Un jeu de données multi-tâches à grande échelle pour l'apprentissage par renforcement en contexteXLand-100B: A Large-Scale Multi-Task Dataset for In-Context
Reinforcement Learning
Suite au succès du paradigme d'apprentissage en contexte dans les modèles de langage et de vision par ordinateur à grande échelle, le domaine émergent de l'apprentissage par renforcement en contexte connaît une croissance rapide. Cependant, son développement a été freiné par le manque de benchmarks exigeants, car toutes les expériences ont été menées dans des environnements simples et sur des jeux de données de petite taille. Nous présentons XLand-100B, un jeu de données à grande échelle pour l'apprentissage par renforcement en contexte basé sur l'environnement XLand-MiniGrid, comme une première étape pour atténuer ce problème. Il contient des historiques d'apprentissage complets pour près de 30 000 tâches différentes, couvrant 100 milliards de transitions et 2,5 milliards d'épisodes. La collecte de ce jeu de données a nécessité 50 000 heures de GPU, ce qui dépasse les capacités de la plupart des laboratoires académiques. En plus du jeu de données, nous fournissons les utilitaires pour le reproduire ou l'étendre encore davantage. Avec cet effort substantiel, nous visons à démocratiser la recherche dans le domaine en pleine croissance de l'apprentissage par renforcement en contexte et à fournir une base solide pour un passage à l'échelle ultérieur. Le code est open-source et disponible sous licence Apache 2.0 à l'adresse https://github.com/dunno-lab/xland-minigrid-datasets.