ChatPaper.aiChatPaper

Набор данных RefinedWeb для модели Falcon LLM: превосходство веб-данных над курируемыми корпусами, используя только веб-данные

The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora with Web Data, and Web Data Only

June 1, 2023
Авторы: Guilherme Penedo, Quentin Malartic, Daniel Hesslow, Ruxandra Cojocaru, Alessandro Cappelli, Hamza Alobeidli, Baptiste Pannier, Ebtesam Almazrouei, Julien Launay
cs.AI

Аннотация

Крупные языковые модели обычно обучаются на смеси отфильтрованных веб-данных и тщательно отобранных высококачественных корпусов, таких как диалоги из социальных сетей, книги или технические статьи. Считается, что такой процесс отбора необходим для создания эффективных моделей с широкими способностями к обобщению в условиях нулевого сценария. Однако, по мере рассмотрения более крупных моделей, требующих предварительного обучения на триллионах токенов, остается неясным, насколько масштабируем процесс отбора и не исчерпаем ли мы вскоре уникальные высококачественные данные. Вопреки предыдущим убеждениям, мы показываем, что правильно отфильтрованные и дедуплицированные веб-данные сами по себе могут привести к созданию мощных моделей, даже значительно превосходящих модели, обученные на наборе данных The Pile, которые считаются передовыми. Несмотря на тщательную фильтрацию, высококачественные данные, извлеченные из веба, остаются обильными, и мы смогли получить пять триллионов токенов из CommonCrawl. Мы публично выпускаем выборку из 600 миллиардов токенов из нашего набора данных RefinedWeb, а также языковые модели с 1,3/7,5 миллиардами параметров, обученные на этих данных.
English
Large language models are commonly trained on a mixture of filtered web data and curated high-quality corpora, such as social media conversations, books, or technical papers. This curation process is believed to be necessary to produce performant models with broad zero-shot generalization abilities. However, as larger models requiring pretraining on trillions of tokens are considered, it is unclear how scalable is curation and whether we will run out of unique high-quality data soon. At variance with previous beliefs, we show that properly filtered and deduplicated web data alone can lead to powerful models; even significantly outperforming models from the state-of-the-art trained on The Pile. Despite extensive filtering, the high-quality data we extract from the web is still plentiful, and we are able to obtain five trillion tokens from CommonCrawl. We publicly release an extract of 600 billion tokens from our RefinedWeb dataset, and 1.3/7.5B parameters language models trained on it.
PDF363December 15, 2024