ChatPaper.aiChatPaper

AutoMathText: Autonome Dataselectie met Taalmodellen voor Wiskundige Teksten

AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

February 12, 2024
Auteurs: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
cs.AI

Samenvatting

Om de vaardigheid van taalmodelen in wiskundig redeneren te verbeteren via continue voorafgaande training, introduceren we een nieuwe strategie die basistaalmodellen benut voor autonome dataselectie. In tegenstelling tot conventionele supervised fine-tuning of getrainde classificatiemodellen met door mensen geannoteerde gegevens, maakt onze aanpak gebruik van meta-geprompte taalmodellen als zero-shot verifiers om autonoom hoogwaardige wiskundige inhoud te evalueren en te selecteren, en we geven de samengestelde open-source AutoMathText-dataset vrij, die meer dan 200GB aan gegevens omvat. Om de effectiviteit van onze methode aan te tonen, hebben we een 7B-parameter Mistral taalmodel continu voorgetraind op de AutoMathText-dataset, wat aanzienlijke verbeteringen opleverde in de prestaties op de MATH-dataset met een hoeveelheid tokens die met ordes van grootte is verminderd in vergelijking met eerdere werken over continue voorafgaande training. Onze methode toont een 2 keer hogere efficiëntie in het vooraf trainen van tokens in vergelijking met baseline-methoden, wat het potentieel van onze aanpak onderstreept om de wiskundige redeneervaardigheden van modellen te verbeteren. De AutoMathText- dataset is beschikbaar op https://huggingface.co/datasets/math-ai/AutoMathText. De code is beschikbaar op https://github.com/yifanzhang-pro/AutoMathText.
English
To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach utilizes meta-prompted language models as zero-shot verifiers to autonomously evaluate and select high-quality mathematical content, and we release the curated open-source AutoMathText dataset encompassing over 200GB of data. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter Mistral language model on the AutoMathText dataset, achieving substantial improvements in downstream performance on the MATH dataset with a token amount reduced by orders of magnitude compared to previous continuous pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.
PDF152December 15, 2024