AutoMathText: Autonome Datenauswahl mit Sprachmodellen für mathematische Texte

papers.abstract

Um die Fähigkeiten von Sprachmodellen im mathematischen Denken durch kontinuierliches Vortraining zu verbessern, führen wir eine neuartige Strategie ein, die Basissprachmodelle für die autonome Datenauswahl nutzt. Abweichend von konventionellem überwachtem Feinabstimmen oder trainierten Klassifikatoren mit von Menschen annotierten Daten, verwendet unser Ansatz meta-promptete Sprachmodelle als Zero-Shot-Verifizierer, um eigenständig hochwertige mathematische Inhalte zu bewerten und auszuwählen. Wir veröffentlichen das kuratierte Open-Source-Dataset AutoMathText, das über 200 GB an Daten umfasst. Um die Wirksamkeit unserer Methode zu demonstrieren, haben wir ein 7-Milliarden-Parameter-Mistral-Sprachmodell kontinuierlich auf dem AutoMathText-Dataset vortrainiert und dabei erhebliche Verbesserungen in der nachgelagerten Leistung auf dem MATH-Dataset erzielt, wobei die Tokenmenge im Vergleich zu früheren kontinuierlichen Vortrainingsarbeiten um Größenordnungen reduziert wurde. Unsere Methode zeigt eine 2-fache Steigerung der Vortraining-Token-Effizienz im Vergleich zu Baseline-Methoden, was das Potenzial unseres Ansatzes zur Verbesserung der mathematischen Denkfähigkeiten von Modellen unterstreicht. Das AutoMathText-Dataset ist verfügbar unter https://huggingface.co/datasets/math-ai/AutoMathText. Der Code ist verfügbar unter https://github.com/yifanzhang-pro/AutoMathText.

English

To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach utilizes meta-prompted language models as zero-shot verifiers to autonomously evaluate and select high-quality mathematical content, and we release the curated open-source AutoMathText dataset encompassing over 200GB of data. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter Mistral language model on the AutoMathText dataset, achieving substantial improvements in downstream performance on the MATH dataset with a token amount reduced by orders of magnitude compared to previous continuous pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.

AutoMathText: Autonome Datenauswahl mit Sprachmodellen für mathematische Texte

AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

papers.abstract

Support