Programando Cada Exemplo: Elevando a Qualidade dos Dados de Pré-treinamento como Especialistas em Escala

Resumo

O pré-treinamento de grandes modelos de linguagem tradicionalmente dependeu de especialistas humanos para criar heurísticas para melhorar a qualidade das corpora, resultando em inúmeras regras desenvolvidas até o momento. No entanto, essas regras carecem da flexibilidade para lidar eficazmente com as características únicas de cada exemplo. Enquanto isso, aplicar regras personalizadas para cada exemplo é impraticável para especialistas humanos. Neste artigo, demonstramos que até mesmo pequenos modelos de linguagem, com apenas 0,3 bilhões de parâmetros, podem apresentar substanciais capacidades de refinamento de dados comparáveis às de especialistas humanos. Apresentamos a Programação de Cada Exemplo (ProX), um novo framework que trata o refinamento de dados como uma tarefa de programação, permitindo que os modelos refinem as corpora gerando e executando operações detalhadas, como normalização de strings, para cada exemplo individual em escala. Resultados experimentais mostram que os modelos pré-treinados em dados curados pelo ProX superam tanto os dados originais quanto os dados filtrados por outros métodos de seleção em mais de 2% em diversos benchmarks subsequentes. Sua eficácia abrange vários tamanhos de modelo e corpora de pré-treinamento, incluindo C4, RedPajama-V2 e FineWeb. Além disso, o ProX apresenta um potencial significativo em pré-treinamento contínuo específico de domínio: sem design específico de domínio, modelos treinados em OpenWebMath refinados pelo ProX superam métodos baseados em regras criadas por humanos, melhorando a precisão média em 7,6% em relação ao Mistral-7B, com 14,6% para Llama-2-7B e 20,3% para CodeLlama-7B, todos dentro de 10 bilhões de tokens para serem comparáveis a modelos como Llemma-7B treinados em 200 bilhões de tokens. Uma análise adicional destaca que o ProX economiza significativamente FLOPs de treinamento, oferecendo um caminho promissor para o pré-treinamento eficiente de LLM. Estamos disponibilizando o ProX como código aberto com um corpus de mais de 100 bilhões, modelos e compartilhando todos os detalhes de treinamento e implementação para pesquisa reproduzível e futuras inovações. Código: https://github.com/GAIR-NLP/ProX

English

Large language model pre-training has traditionally relied on human experts to craft heuristics for improving the corpora quality, resulting in numerous rules developed to date. However, these rules lack the flexibility to address the unique characteristics of individual example effectively. Meanwhile, applying tailored rules to every example is impractical for human experts. In this paper, we demonstrate that even small language models, with as few as 0.3B parameters, can exhibit substantial data refining capabilities comparable to those of human experts. We introduce Programming Every Example (ProX), a novel framework that treats data refinement as a programming task, enabling models to refine corpora by generating and executing fine-grained operations, such as string normalization, for each individual example at scale. Experimental results show that models pre-trained on ProX-curated data outperform either original data or data filtered by other selection methods by more than 2% across various downstream benchmarks. Its effectiveness spans various model sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb. Furthermore, ProX exhibits significant potential in domain-specific continual pre-training: without domain specific design, models trained on OpenWebMath refined by ProX outperform human-crafted rule-based methods, improving average accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B trained on 200B tokens. Further analysis highlights that ProX significantly saves training FLOPs, offering a promising path for efficient LLM pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing all training and implementation details for reproducible research and future innovation. Code: https://github.com/GAIR-NLP/ProX

Programando Cada Exemplo: Elevando a Qualidade dos Dados de Pré-treinamento como Especialistas em Escala

Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

Resumo

Support