AutoMathText: Seleção Autônoma de Dados com Modelos de Linguagem para Textos Matemáticos
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts
February 12, 2024
Autores: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
cs.AI
Resumo
Para aprimorar a proficiência de modelos de linguagem no raciocínio matemático por meio de pré-treinamento contínuo, introduzimos uma estratégia inovadora que aproveita modelos de linguagem base para a seleção autônoma de dados. Diferentemente dos métodos convencionais de ajuste fino supervisionado ou classificadores treinados com dados anotados manualmente, nossa abordagem utiliza modelos de linguagem meta-promptados como verificadores zero-shot para avaliar e selecionar de forma autônoma conteúdos matemáticos de alta qualidade, e disponibilizamos o conjunto de dados AutoMathText, uma coleção curada e de código aberto que abrange mais de 200GB de dados. Para demonstrar a eficácia do nosso método, realizamos o pré-treinamento contínuo de um modelo de linguagem Mistral com 7 bilhões de parâmetros no conjunto de dados AutoMathText, alcançando melhorias significativas no desempenho downstream no conjunto de dados MATH, com uma quantidade de tokens reduzida em ordens de magnitude em comparação com trabalhos anteriores de pré-treinamento contínuo. Nosso método demonstra um aumento de 2 vezes na eficiência de tokens durante o pré-treinamento em relação às abordagens baselines, destacando o potencial da nossa estratégia para aprimorar as capacidades de raciocínio matemático dos modelos. O conjunto de dados AutoMathText está disponível em https://huggingface.co/datasets/math-ai/AutoMathText. O código está disponível em https://github.com/yifanzhang-pro/AutoMathText.
English
To improve language models' proficiency in mathematical reasoning via
continual pretraining, we introduce a novel strategy that leverages base
language models for autonomous data selection. Departing from conventional
supervised fine-tuning or trained classifiers with human-annotated data, our
approach utilizes meta-prompted language models as zero-shot verifiers to
autonomously evaluate and select high-quality mathematical content, and we
release the curated open-source AutoMathText dataset encompassing over 200GB of
data. To demonstrate the efficacy of our method, we continuously pretrained a
7B-parameter Mistral language model on the AutoMathText dataset, achieving
substantial improvements in downstream performance on the MATH dataset with a
token amount reduced by orders of magnitude compared to previous continuous
pretraining works. Our method showcases a 2 times increase in pretraining token
efficiency compared to baselines, underscoring the potential of our approach in
enhancing models' mathematical reasoning capabilities. The AutoMathText dataset
is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code
is available at https://github.com/yifanzhang-pro/AutoMathText.