AutoMathText: Selezione Autonoma dei Dati con Modelli Linguistici per Testi Matematici

Abstract

Per migliorare la competenza dei modelli linguistici nel ragionamento matematico attraverso il pretraining continuo, introduciamo una nuova strategia che sfrutta i modelli linguistici di base per la selezione autonoma dei dati. Diversamente dai tradizionali approcci di fine-tuning supervisionato o classificatori addestrati con dati annotati manualmente, il nostro metodo utilizza modelli linguistici meta-prompted come verificatori zero-shot per valutare e selezionare autonomamente contenuti matematici di alta qualità, e rilasciamo il dataset open-source curato AutoMathText, che comprende oltre 200GB di dati. Per dimostrare l'efficacia del nostro metodo, abbiamo eseguito un pretraining continuo su un modello linguistico Mistral da 7 miliardi di parametri utilizzando il dataset AutoMathText, ottenendo miglioramenti significativi nelle prestazioni downstream sul dataset MATH con una quantità di token ridotta di ordini di grandezza rispetto ai precedenti lavori di pretraining continuo. Il nostro metodo mostra un aumento di 2 volte nell'efficienza dei token di pretraining rispetto ai baseline, evidenziando il potenziale del nostro approccio nel potenziare le capacità di ragionamento matematico dei modelli. Il dataset AutoMathText è disponibile all'indirizzo https://huggingface.co/datasets/math-ai/AutoMathText. Il codice è disponibile all'indirizzo https://github.com/yifanzhang-pro/AutoMathText.

English

To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach utilizes meta-prompted language models as zero-shot verifiers to autonomously evaluate and select high-quality mathematical content, and we release the curated open-source AutoMathText dataset encompassing over 200GB of data. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter Mistral language model on the AutoMathText dataset, achieving substantial improvements in downstream performance on the MATH dataset with a token amount reduced by orders of magnitude compared to previous continuous pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.

AutoMathText: Selezione Autonoma dei Dati con Modelli Linguistici per Testi Matematici

AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

Abstract

Support