AutoMathText: Autonome Datenauswahl mit Sprachmodellen für mathematische Texte
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts
February 12, 2024
Autoren: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
cs.AI
Zusammenfassung
Um die Fähigkeiten von Sprachmodellen im mathematischen Denken durch kontinuierliches Vortraining zu verbessern, führen wir eine neuartige Strategie ein, die Basissprachmodelle für die autonome Datenauswahl nutzt. Abweichend von konventionellem überwachtem Feinabstimmen oder trainierten Klassifikatoren mit von Menschen annotierten Daten, verwendet unser Ansatz meta-promptete Sprachmodelle als Zero-Shot-Verifizierer, um eigenständig hochwertige mathematische Inhalte zu bewerten und auszuwählen. Wir veröffentlichen das kuratierte Open-Source-Dataset AutoMathText, das über 200 GB an Daten umfasst. Um die Wirksamkeit unserer Methode zu demonstrieren, haben wir ein 7-Milliarden-Parameter-Mistral-Sprachmodell kontinuierlich auf dem AutoMathText-Dataset vortrainiert und dabei erhebliche Verbesserungen in der nachgelagerten Leistung auf dem MATH-Dataset erzielt, wobei die Tokenmenge im Vergleich zu früheren kontinuierlichen Vortrainingsarbeiten um Größenordnungen reduziert wurde. Unsere Methode zeigt eine 2-fache Steigerung der Vortraining-Token-Effizienz im Vergleich zu Baseline-Methoden, was das Potenzial unseres Ansatzes zur Verbesserung der mathematischen Denkfähigkeiten von Modellen unterstreicht. Das AutoMathText-Dataset ist verfügbar unter https://huggingface.co/datasets/math-ai/AutoMathText. Der Code ist verfügbar unter https://github.com/yifanzhang-pro/AutoMathText.
English
To improve language models' proficiency in mathematical reasoning via
continual pretraining, we introduce a novel strategy that leverages base
language models for autonomous data selection. Departing from conventional
supervised fine-tuning or trained classifiers with human-annotated data, our
approach utilizes meta-prompted language models as zero-shot verifiers to
autonomously evaluate and select high-quality mathematical content, and we
release the curated open-source AutoMathText dataset encompassing over 200GB of
data. To demonstrate the efficacy of our method, we continuously pretrained a
7B-parameter Mistral language model on the AutoMathText dataset, achieving
substantial improvements in downstream performance on the MATH dataset with a
token amount reduced by orders of magnitude compared to previous continuous
pretraining works. Our method showcases a 2 times increase in pretraining token
efficiency compared to baselines, underscoring the potential of our approach in
enhancing models' mathematical reasoning capabilities. The AutoMathText dataset
is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code
is available at https://github.com/yifanzhang-pro/AutoMathText.