ChatPaper.aiChatPaper

XLand-100B: 인-컨텍스트 강화 학습을 위한 대규모 멀티태스크 데이터셋

XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

June 13, 2024
저자: Alexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov
cs.AI

초록

대규모 언어 및 컴퓨터 비전 모델에서의 인-컨텍스트 학습 패러다임의 성공에 이어, 최근 등장한 인-컨텍스트 강화 학습 분야는 빠르게 성장하고 있습니다. 그러나 이 분야의 발전은 도전적인 벤치마크의 부재로 인해 지연되어 왔는데, 이는 모든 실험이 단순한 환경과 소규모 데이터셋에서 수행되었기 때문입니다. 이러한 문제를 완화하기 위한 첫 번째 단계로, 우리는 XLand-MiniGrid 환경을 기반으로 한 대규모 인-컨텍스트 강화 학습 데이터셋인 XLand-100B를 제시합니다. 이 데이터셋은 거의 30,000개의 서로 다른 작업에 대한 완전한 학습 기록을 포함하며, 100B개의 전이와 2.5B개의 에피소드를 다룹니다. 이 데이터셋을 수집하는 데는 50,000 GPU 시간이 소요되었으며, 이는 대부분의 학술 연구실이 감당하기 어려운 규모입니다. 데이터셋과 함께, 이를 재현하거나 더 확장할 수 있는 유틸리티도 제공합니다. 이러한 상당한 노력을 통해, 우리는 빠르게 성장하는 인-컨텍스트 강화 학습 분야의 연구를 민주화하고, 추가적인 확장을 위한 견고한 기반을 제공하고자 합니다. 코드는 오픈소스이며, Apache 2.0 라이선스 하에 https://github.com/dunno-lab/xland-minigrid-datasets에서 이용 가능합니다.
English
Following the success of the in-context learning paradigm in large-scale language and computer vision models, the recently emerging field of in-context reinforcement learning is experiencing a rapid growth. However, its development has been held back by the lack of challenging benchmarks, as all the experiments have been carried out in simple environments and on small-scale datasets. We present XLand-100B, a large-scale dataset for in-context reinforcement learning based on the XLand-MiniGrid environment, as a first step to alleviate this problem. It contains complete learning histories for nearly 30,000 different tasks, covering 100B transitions and 2.5B episodes. It took 50,000 GPU hours to collect the dataset, which is beyond the reach of most academic labs. Along with the dataset, we provide the utilities to reproduce or expand it even further. With this substantial effort, we aim to democratize research in the rapidly growing field of in-context reinforcement learning and provide a solid foundation for further scaling. The code is open-source and available under Apache 2.0 licence at https://github.com/dunno-lab/xland-minigrid-datasets.

Summary

AI-Generated Summary

PDF901December 6, 2024