GlotCC: Um Corpus e Pipeline de Cobertura Ampla do CommonCrawl para Línguas Minoritárias
GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages
October 31, 2024
Autores: Amir Hossein Kargaran, François Yvon, Hinrich Schütze
cs.AI
Resumo
A necessidade de grandes corpora de texto aumentou com o surgimento de modelos de linguagem pré-treinados e, em particular, a descoberta de leis de escala para esses modelos. A maioria dos corpora disponíveis possui dados suficientes apenas para idiomas com grandes comunidades dominantes. No entanto, não há um corpus disponível que (i) cubra uma ampla gama de idiomas minoritários; (ii) seja gerado por um pipeline de código aberto reprodutível; e (iii) seja rigorosamente limpo de ruídos, tornando-o confiável para uso. Apresentamos o GlotCC, um corpus de domínio geral limpo, a nível de documento, de 2TB derivado do CommonCrawl, abrangendo mais de 1000 idiomas. Disponibilizamos o GlotCC e o sistema usado para gerá-lo - incluindo o pipeline, modelo de identificação de idioma e filtros - para a comunidade de pesquisa. Corpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.
English
The need for large text corpora has increased with the advent of pretrained
language models and, in particular, the discovery of scaling laws for these
models. Most available corpora have sufficient data only for languages with
large dominant communities. However, there is no corpus available that (i)
covers a wide range of minority languages; (ii) is generated by an open-source
reproducible pipeline; and (iii) is rigorously cleaned from noise, making it
trustworthy to use. We present GlotCC, a clean, document-level, 2TB general
domain corpus derived from CommonCrawl, covering more than 1000 languages. We
make GlotCC and the system used to generate it - including the pipeline,
language identification model, and filters - available to the research
community. Corpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1,
Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.Summary
AI-Generated Summary