XLand-100B: Большой масштабный многозадачный набор данных для обучения с подкреплением в контекстеXLand-100B: A Large-Scale Multi-Task Dataset for In-Context
Reinforcement Learning
После успеха парадигмы обучения в контексте в крупномасштабных моделях языка и компьютерного зрения недавно возникшее направление обучения с подкреплением в контексте переживает быстрый рост. Однако его развитие тормозится из-за отсутствия сложных бенчмарков, поскольку все эксперименты проводились в простых средах и на небольших наборах данных. Мы представляем XLand-100B, крупномасштабный набор данных для обучения с подкреплением в контексте на основе среды XLand-MiniGrid, как первый шаг к решению этой проблемы. Он содержит полные истории обучения для почти 30 000 различных задач, охватывающих 100 млрд переходов и 2,5 млрд эпизодов. Сбор набора данных занял 50 000 часов GPU, что выходит за рамки большинства академических лабораторий. Вместе с набором данных мы предоставляем утилиты для воспроизведения или дальнейшего расширения. С этим значительным усилием мы стремимся демократизировать исследования в быстрорастущем направлении обучения с подкреплением в контексте и предоставить прочное основание для дальнейшего масштабирования. Код является открытым и доступен по лицензии Apache 2.0 на https://github.com/dunno-lab/xland-minigrid-datasets.