AutoMathText: Seleção Autônoma de Dados com Modelos de Linguagem para Textos Matemáticos

Resumo

Para aprimorar a proficiência de modelos de linguagem no raciocínio matemático por meio de pré-treinamento contínuo, introduzimos uma estratégia inovadora que aproveita modelos de linguagem base para a seleção autônoma de dados. Diferentemente dos métodos convencionais de ajuste fino supervisionado ou classificadores treinados com dados anotados manualmente, nossa abordagem utiliza modelos de linguagem meta-promptados como verificadores zero-shot para avaliar e selecionar de forma autônoma conteúdos matemáticos de alta qualidade, e disponibilizamos o conjunto de dados AutoMathText, uma coleção curada e de código aberto que abrange mais de 200GB de dados. Para demonstrar a eficácia do nosso método, realizamos o pré-treinamento contínuo de um modelo de linguagem Mistral com 7 bilhões de parâmetros no conjunto de dados AutoMathText, alcançando melhorias significativas no desempenho downstream no conjunto de dados MATH, com uma quantidade de tokens reduzida em ordens de magnitude em comparação com trabalhos anteriores de pré-treinamento contínuo. Nosso método demonstra um aumento de 2 vezes na eficiência de tokens durante o pré-treinamento em relação às abordagens baselines, destacando o potencial da nossa estratégia para aprimorar as capacidades de raciocínio matemático dos modelos. O conjunto de dados AutoMathText está disponível em https://huggingface.co/datasets/math-ai/AutoMathText. O código está disponível em https://github.com/yifanzhang-pro/AutoMathText.

English

To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach utilizes meta-prompted language models as zero-shot verifiers to autonomously evaluate and select high-quality mathematical content, and we release the curated open-source AutoMathText dataset encompassing over 200GB of data. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter Mistral language model on the AutoMathText dataset, achieving substantial improvements in downstream performance on the MATH dataset with a token amount reduced by orders of magnitude compared to previous continuous pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.

AutoMathText: Seleção Autônoma de Dados com Modelos de Linguagem para Textos Matemáticos

AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

Resumo

Support