Programando Cada Exemplo: Elevando a Qualidade dos Dados de Pré-treinamento como Especialistas em Escala
Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale
September 25, 2024
Autores: Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu
cs.AI
Resumo
O pré-treinamento de grandes modelos de linguagem tradicionalmente dependeu de especialistas humanos para criar heurísticas para melhorar a qualidade das corpora, resultando em inúmeras regras desenvolvidas até o momento. No entanto, essas regras carecem da flexibilidade para lidar eficazmente com as características únicas de cada exemplo. Enquanto isso, aplicar regras personalizadas para cada exemplo é impraticável para especialistas humanos. Neste artigo, demonstramos que até mesmo pequenos modelos de linguagem, com apenas 0,3 bilhões de parâmetros, podem apresentar substanciais capacidades de refinamento de dados comparáveis às de especialistas humanos. Apresentamos a Programação de Cada Exemplo (ProX), um novo framework que trata o refinamento de dados como uma tarefa de programação, permitindo que os modelos refinem as corpora gerando e executando operações detalhadas, como normalização de strings, para cada exemplo individual em escala. Resultados experimentais mostram que os modelos pré-treinados em dados curados pelo ProX superam tanto os dados originais quanto os dados filtrados por outros métodos de seleção em mais de 2% em diversos benchmarks subsequentes. Sua eficácia abrange vários tamanhos de modelo e corpora de pré-treinamento, incluindo C4, RedPajama-V2 e FineWeb. Além disso, o ProX apresenta um potencial significativo em pré-treinamento contínuo específico de domínio: sem design específico de domínio, modelos treinados em OpenWebMath refinados pelo ProX superam métodos baseados em regras criadas por humanos, melhorando a precisão média em 7,6% em relação ao Mistral-7B, com 14,6% para Llama-2-7B e 20,3% para CodeLlama-7B, todos dentro de 10 bilhões de tokens para serem comparáveis a modelos como Llemma-7B treinados em 200 bilhões de tokens. Uma análise adicional destaca que o ProX economiza significativamente FLOPs de treinamento, oferecendo um caminho promissor para o pré-treinamento eficiente de LLM. Estamos disponibilizando o ProX como código aberto com um corpus de mais de 100 bilhões, modelos e compartilhando todos os detalhes de treinamento e implementação para pesquisa reproduzível e futuras inovações. Código: https://github.com/GAIR-NLP/ProX
English
Large language model pre-training has traditionally relied on human experts
to craft heuristics for improving the corpora quality, resulting in numerous
rules developed to date. However, these rules lack the flexibility to address
the unique characteristics of individual example effectively. Meanwhile,
applying tailored rules to every example is impractical for human experts. In
this paper, we demonstrate that even small language models, with as few as 0.3B
parameters, can exhibit substantial data refining capabilities comparable to
those of human experts. We introduce Programming Every Example (ProX), a novel
framework that treats data refinement as a programming task, enabling models to
refine corpora by generating and executing fine-grained operations, such as
string normalization, for each individual example at scale. Experimental
results show that models pre-trained on ProX-curated data outperform either
original data or data filtered by other selection methods by more than 2%
across various downstream benchmarks. Its effectiveness spans various model
sizes and pre-training corpora, including C4, RedPajama-V2, and FineWeb.
Furthermore, ProX exhibits significant potential in domain-specific continual
pre-training: without domain specific design, models trained on OpenWebMath
refined by ProX outperform human-crafted rule-based methods, improving average
accuracy by 7.6% over Mistral-7B, with 14.6% for Llama-2-7B and 20.3% for
CodeLlama-7B, all within 10B tokens to be comparable to models like Llemma-7B
trained on 200B tokens. Further analysis highlights that ProX significantly
saves training FLOPs, offering a promising path for efficient LLM
pre-training.We are open-sourcing ProX with >100B corpus, models, and sharing
all training and implementation details for reproducible research and future
innovation. Code: https://github.com/GAIR-NLP/ProXSummary
AI-Generated Summary