XLand-100B: Un conjunto de datos a gran escala para aprendizaje por refuerzo en contexto multi-tarea
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
June 13, 2024
Autores: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov
cs.AI
Resumen
Tras el éxito del paradigma de aprendizaje en contexto en modelos de lenguaje y visión por computadora a gran escala, el campo emergente del aprendizaje por refuerzo en contexto está experimentando un crecimiento acelerado. Sin embargo, su desarrollo se ha visto limitado por la falta de puntos de referencia desafiantes, ya que todos los experimentos se han realizado en entornos simples y con conjuntos de datos de pequeña escala. Presentamos XLand-100B, un conjunto de datos a gran escala para el aprendizaje por refuerzo en contexto basado en el entorno XLand-MiniGrid, como un primer paso para abordar este problema. Contiene historiales completos de aprendizaje para casi 30,000 tareas diferentes, abarcando 100B transiciones y 2.5B episodios. La recopilación del conjunto de datos requirió 50,000 horas de GPU, un recurso inaccesible para la mayoría de los laboratorios académicos. Junto con el conjunto de datos, proporcionamos las herramientas necesarias para reproducirlo o ampliarlo aún más. Con este esfuerzo significativo, buscamos democratizar la investigación en el campo en rápido crecimiento del aprendizaje por refuerzo en contexto y sentar una base sólida para futuros escalamientos. El código es de código abierto y está disponible bajo la licencia Apache 2.0 en https://github.com/dunno-lab/xland-minigrid-datasets.
English
Following the success of the in-context learning paradigm in large-scale
language and computer vision models, the recently emerging field of in-context
reinforcement learning is experiencing a rapid growth. However, its development
has been held back by the lack of challenging benchmarks, as all the
experiments have been carried out in simple environments and on small-scale
datasets. We present XLand-100B, a large-scale dataset for in-context
reinforcement learning based on the XLand-MiniGrid environment, as a first step
to alleviate this problem. It contains complete learning histories for nearly
30,000 different tasks, covering 100B transitions and 2.5B episodes. It
took 50,000 GPU hours to collect the dataset, which is beyond the reach of
most academic labs. Along with the dataset, we provide the utilities to
reproduce or expand it even further. With this substantial effort, we aim to
democratize research in the rapidly growing field of in-context reinforcement
learning and provide a solid foundation for further scaling. The code is
open-source and available under Apache 2.0 licence at
https://github.com/dunno-lab/xland-minigrid-datasets.Summary
AI-Generated Summary