XLand-100B: Ein umfangreiches Multi-Task-Datenset für kontextbezogenes Reinforcement LearningXLand-100B: A Large-Scale Multi-Task Dataset for In-Context
Reinforcement Learning
Nach dem Erfolg des In-Context-Lernparadigmas in groß angelegten Sprach- und Computer Vision-Modellen erlebt das kürzlich aufkommende Gebiet des In-Context-Reinforcement-Lernens ein rasches Wachstum. Allerdings wird seine Entwicklung durch den Mangel an anspruchsvollen Benchmarks gehemmt, da alle Experimente in einfachen Umgebungen und auf kleinen Datensätzen durchgeführt wurden. Wir präsentieren XLand-100B, einen groß angelegten Datensatz für In-Context-Reinforcement-Learning, basierend auf der XLand-MiniGrid-Umgebung, als ersten Schritt zur Behebung dieses Problems. Er enthält vollständige Lernverläufe für nahezu 30.000 verschiedene Aufgaben, die 100 Milliarden Übergänge und 2,5 Milliarden Episoden abdecken. Es dauerte 50.000 GPU-Stunden, um den Datensatz zu sammeln, was die meisten akademischen Labore übersteigt. Zusammen mit dem Datensatz stellen wir die Tools zur Verfügung, um ihn zu reproduzieren oder sogar weiter auszubauen. Mit diesem erheblichen Aufwand zielen wir darauf ab, die Forschung im schnell wachsenden Bereich des In-Context-Reinforcement-Lernens zu demokratisieren und eine solide Grundlage für weitere Skalierung zu schaffen. Der Code ist Open-Source und unter der Apache 2.0 Lizenz verfügbar unter https://github.com/dunno-lab/xland-minigrid-datasets.