ChatPaper.aiChatPaper

GlotCC: Um Corpus e Pipeline de Cobertura Ampla do CommonCrawl para Línguas Minoritárias

GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages

October 31, 2024
Autores: Amir Hossein Kargaran, François Yvon, Hinrich Schütze
cs.AI

Resumo

A necessidade de grandes corpora de texto aumentou com o surgimento de modelos de linguagem pré-treinados e, em particular, a descoberta de leis de escala para esses modelos. A maioria dos corpora disponíveis possui dados suficientes apenas para idiomas com grandes comunidades dominantes. No entanto, não há um corpus disponível que (i) cubra uma ampla gama de idiomas minoritários; (ii) seja gerado por um pipeline de código aberto reprodutível; e (iii) seja rigorosamente limpo de ruídos, tornando-o confiável para uso. Apresentamos o GlotCC, um corpus de domínio geral limpo, a nível de documento, de 2TB derivado do CommonCrawl, abrangendo mais de 1000 idiomas. Disponibilizamos o GlotCC e o sistema usado para gerá-lo - incluindo o pipeline, modelo de identificação de idioma e filtros - para a comunidade de pesquisa. Corpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.
English
The need for large text corpora has increased with the advent of pretrained language models and, in particular, the discovery of scaling laws for these models. Most available corpora have sufficient data only for languages with large dominant communities. However, there is no corpus available that (i) covers a wide range of minority languages; (ii) is generated by an open-source reproducible pipeline; and (iii) is rigorously cleaned from noise, making it trustworthy to use. We present GlotCC, a clean, document-level, 2TB general domain corpus derived from CommonCrawl, covering more than 1000 languages. We make GlotCC and the system used to generate it - including the pipeline, language identification model, and filters - available to the research community. Corpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.

Summary

AI-Generated Summary

PDF42November 13, 2024