AutoMathText: Selezione Autonoma dei Dati con Modelli Linguistici per Testi Matematici
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts
February 12, 2024
Autori: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
cs.AI
Abstract
Per migliorare la competenza dei modelli linguistici nel ragionamento matematico attraverso il pretraining continuo, introduciamo una nuova strategia che sfrutta i modelli linguistici di base per la selezione autonoma dei dati. Diversamente dai tradizionali approcci di fine-tuning supervisionato o classificatori addestrati con dati annotati manualmente, il nostro metodo utilizza modelli linguistici meta-prompted come verificatori zero-shot per valutare e selezionare autonomamente contenuti matematici di alta qualità, e rilasciamo il dataset open-source curato AutoMathText, che comprende oltre 200GB di dati. Per dimostrare l'efficacia del nostro metodo, abbiamo eseguito un pretraining continuo su un modello linguistico Mistral da 7 miliardi di parametri utilizzando il dataset AutoMathText, ottenendo miglioramenti significativi nelle prestazioni downstream sul dataset MATH con una quantità di token ridotta di ordini di grandezza rispetto ai precedenti lavori di pretraining continuo. Il nostro metodo mostra un aumento di 2 volte nell'efficienza dei token di pretraining rispetto ai baseline, evidenziando il potenziale del nostro approccio nel potenziare le capacità di ragionamento matematico dei modelli. Il dataset AutoMathText è disponibile all'indirizzo https://huggingface.co/datasets/math-ai/AutoMathText. Il codice è disponibile all'indirizzo https://github.com/yifanzhang-pro/AutoMathText.
English
To improve language models' proficiency in mathematical reasoning via
continual pretraining, we introduce a novel strategy that leverages base
language models for autonomous data selection. Departing from conventional
supervised fine-tuning or trained classifiers with human-annotated data, our
approach utilizes meta-prompted language models as zero-shot verifiers to
autonomously evaluate and select high-quality mathematical content, and we
release the curated open-source AutoMathText dataset encompassing over 200GB of
data. To demonstrate the efficacy of our method, we continuously pretrained a
7B-parameter Mistral language model on the AutoMathText dataset, achieving
substantial improvements in downstream performance on the MATH dataset with a
token amount reduced by orders of magnitude compared to previous continuous
pretraining works. Our method showcases a 2 times increase in pretraining token
efficiency compared to baselines, underscoring the potential of our approach in
enhancing models' mathematical reasoning capabilities. The AutoMathText dataset
is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code
is available at https://github.com/yifanzhang-pro/AutoMathText.