ChatPaper.aiChatPaper

FineWeb2: 모든 언어에 맞춰 확장 가능한 단일 파이프라인 - 사전 학습 데이터 처리의 적응화

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

June 26, 2025
저자: Guilherme Penedo, Hynek Kydlíček, Vinko Sabolčec, Bettina Messmer, Negar Foroutan, Amir Hossein Kargaran, Colin Raffel, Martin Jaggi, Leandro Von Werra, Thomas Wolf
cs.AI

초록

최첨단 대규모 언어 모델(LLM)을 사전 학습시키기 위해서는 방대한 양의 깨끗하고 다양한 텍스트 데이터가 필요합니다. 대규모 고품질 영어 사전 학습 데이터셋의 공개적 개발은 최근 상당한 진전을 보였지만, 다국어 LLM을 효과적으로 학습시키는 것은 여전히 도전 과제로 남아 있습니다. 이는 주로 다수의 언어에 걸쳐 필터링 및 중복 제거 파이프라인을 맞춤화하는 데 내재된 어려움 때문입니다. 본 연구에서는 FineWeb를 기반으로 한 새로운 사전 학습 데이터셋 큐레이션 파이프라인을 소개하며, 이 파이프라인은 모든 언어를 자동으로 지원하도록 적응될 수 있습니다. 우리는 9개의 다양한 언어 세트에 대해 파이프라인 설계 선택을 광범위하게 실험하며, 측정 가능한 기준에 기반한 새로운 선택 과정을 통해 선정된 의미 있고 유익한 평가 작업들을 가이드로 삼았습니다. 궁극적으로, 우리의 파이프라인이 기존 데이터셋보다 더 우수한 성능을 보이는 모델을 생성할 수 있는 비영어 코퍼스를 생성할 수 있음을 보여줍니다. 또한, 중복 횟수와 품질을 모두 고려한 간단하고 원칙적인 데이터셋 재조정 접근 방식을 도입하여 추가적인 성능 향상을 제공합니다. 마지막으로, 우리는 거의 100개의 Common Crawl 스냅샷을 사용하여 1000개 이상의 언어로 파이프라인을 확장하여 20테라바이트(50억 문서) 규모의 새로운 다국어 데이터셋인 FineWeb2를 생성했습니다. 이 데이터셋과 함께 파이프라인, 학습 및 평가 코드베이스를 공개합니다.
English
Pre-training state-of-the-art large language models (LLMs) requires vast amounts of clean and diverse text data. While the open development of large high-quality English pre-training datasets has seen substantial recent progress, training performant multilingual LLMs remains a challenge, in large part due to the inherent difficulty of tailoring filtering and deduplication pipelines to a large number of languages. In this work, we introduce a new pre-training dataset curation pipeline based on FineWeb that can be automatically adapted to support any language. We extensively ablate our pipeline design choices on a set of nine diverse languages, guided by a set of meaningful and informative evaluation tasks that were chosen through a novel selection process based on measurable criteria. Ultimately, we show that our pipeline can be used to create non-English corpora that produce more performant models than prior datasets. We additionally introduce a straightforward and principled approach to rebalance datasets that takes into consideration both duplication count and quality, providing an additional performance uplift. Finally, we scale our pipeline to over 1000 languages using almost 100 Common Crawl snapshots to produce FineWeb2, a new 20 terabyte (5 billion document) multilingual dataset which we release along with our pipeline, training, and evaluation codebases.
PDF251June 27, 2025