XLand-100B: Большой масштабный многозадачный набор данных для обучения с подкреплением в контексте
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning
June 13, 2024
Авторы: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov
cs.AI
Аннотация
После успеха парадигмы обучения в контексте в крупномасштабных моделях языка и компьютерного зрения недавно возникшее направление обучения с подкреплением в контексте переживает быстрый рост. Однако его развитие тормозится из-за отсутствия сложных бенчмарков, поскольку все эксперименты проводились в простых средах и на небольших наборах данных. Мы представляем XLand-100B, крупномасштабный набор данных для обучения с подкреплением в контексте на основе среды XLand-MiniGrid, как первый шаг к решению этой проблемы. Он содержит полные истории обучения для почти 30 000 различных задач, охватывающих 100 млрд переходов и 2,5 млрд эпизодов. Сбор набора данных занял 50 000 часов GPU, что выходит за рамки большинства академических лабораторий. Вместе с набором данных мы предоставляем утилиты для воспроизведения или дальнейшего расширения. С этим значительным усилием мы стремимся демократизировать исследования в быстрорастущем направлении обучения с подкреплением в контексте и предоставить прочное основание для дальнейшего масштабирования. Код является открытым и доступен по лицензии Apache 2.0 на https://github.com/dunno-lab/xland-minigrid-datasets.
English
Following the success of the in-context learning paradigm in large-scale
language and computer vision models, the recently emerging field of in-context
reinforcement learning is experiencing a rapid growth. However, its development
has been held back by the lack of challenging benchmarks, as all the
experiments have been carried out in simple environments and on small-scale
datasets. We present XLand-100B, a large-scale dataset for in-context
reinforcement learning based on the XLand-MiniGrid environment, as a first step
to alleviate this problem. It contains complete learning histories for nearly
30,000 different tasks, covering 100B transitions and 2.5B episodes. It
took 50,000 GPU hours to collect the dataset, which is beyond the reach of
most academic labs. Along with the dataset, we provide the utilities to
reproduce or expand it even further. With this substantial effort, we aim to
democratize research in the rapidly growing field of in-context reinforcement
learning and provide a solid foundation for further scaling. The code is
open-source and available under Apache 2.0 licence at
https://github.com/dunno-lab/xland-minigrid-datasets.Summary
AI-Generated Summary