AutoMathText: Autonome Dataselectie met Taalmodellen voor Wiskundige Teksten
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts
February 12, 2024
Auteurs: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
cs.AI
Samenvatting
Om de vaardigheid van taalmodelen in wiskundig redeneren te verbeteren via
continue voorafgaande training, introduceren we een nieuwe strategie die
basistaalmodellen benut voor autonome dataselectie. In tegenstelling tot
conventionele supervised fine-tuning of getrainde classificatiemodellen met
door mensen geannoteerde gegevens, maakt onze aanpak gebruik van meta-geprompte
taalmodellen als zero-shot verifiers om autonoom hoogwaardige wiskundige inhoud
te evalueren en te selecteren, en we geven de samengestelde open-source
AutoMathText-dataset vrij, die meer dan 200GB aan gegevens omvat. Om de
effectiviteit van onze methode aan te tonen, hebben we een 7B-parameter Mistral
taalmodel continu voorgetraind op de AutoMathText-dataset, wat aanzienlijke
verbeteringen opleverde in de prestaties op de MATH-dataset met een hoeveelheid
tokens die met ordes van grootte is verminderd in vergelijking met eerdere
werken over continue voorafgaande training. Onze methode toont een 2 keer
hogere efficiëntie in het vooraf trainen van tokens in vergelijking met
baseline-methoden, wat het potentieel van onze aanpak onderstreept om de
wiskundige redeneervaardigheden van modellen te verbeteren. De AutoMathText-
dataset is beschikbaar op https://huggingface.co/datasets/math-ai/AutoMathText.
De code is beschikbaar op https://github.com/yifanzhang-pro/AutoMathText.
English
To improve language models' proficiency in mathematical reasoning via
continual pretraining, we introduce a novel strategy that leverages base
language models for autonomous data selection. Departing from conventional
supervised fine-tuning or trained classifiers with human-annotated data, our
approach utilizes meta-prompted language models as zero-shot verifiers to
autonomously evaluate and select high-quality mathematical content, and we
release the curated open-source AutoMathText dataset encompassing over 200GB of
data. To demonstrate the efficacy of our method, we continuously pretrained a
7B-parameter Mistral language model on the AutoMathText dataset, achieving
substantial improvements in downstream performance on the MATH dataset with a
token amount reduced by orders of magnitude compared to previous continuous
pretraining works. Our method showcases a 2 times increase in pretraining token
efficiency compared to baselines, underscoring the potential of our approach in
enhancing models' mathematical reasoning capabilities. The AutoMathText dataset
is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code
is available at https://github.com/yifanzhang-pro/AutoMathText.