AutoMathText : Sélection autonome de données avec des modèles de langage pour les textes mathématiques
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts
February 12, 2024
Auteurs: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
cs.AI
Résumé
Pour améliorer la maîtrise des modèles de langage en raisonnement mathématique via un pré-entraînement continu, nous introduisons une nouvelle stratégie qui exploite des modèles de langage de base pour la sélection autonome de données. S'écartant des méthodes conventionnelles de fine-tuning supervisé ou de classificateurs entraînés avec des données annotées manuellement, notre approche utilise des modèles de langage méta-invites comme vérificateurs zero-shot pour évaluer et sélectionner de manière autonome un contenu mathématique de haute qualité. Nous publions également le jeu de données open-source AutoMathText, contenant plus de 200 Go de données. Pour démontrer l'efficacité de notre méthode, nous avons effectué un pré-entraînement continu d'un modèle de langage Mistral à 7 milliards de paramètres sur le jeu de données AutoMathText, obtenant des améliorations significatives des performances en aval sur le jeu de données MATH, avec une quantité de tokens réduite de plusieurs ordres de grandeur par rapport aux travaux précédents de pré-entraînement continu. Notre méthode montre une efficacité de pré-entraînement en tokens deux fois supérieure à celle des approches de référence, soulignant le potentiel de notre approche pour améliorer les capacités de raisonnement mathématique des modèles. Le jeu de données AutoMathText est disponible à l'adresse https://huggingface.co/datasets/math-ai/AutoMathText. Le code est disponible à l'adresse https://github.com/yifanzhang-pro/AutoMathText.
English
To improve language models' proficiency in mathematical reasoning via
continual pretraining, we introduce a novel strategy that leverages base
language models for autonomous data selection. Departing from conventional
supervised fine-tuning or trained classifiers with human-annotated data, our
approach utilizes meta-prompted language models as zero-shot verifiers to
autonomously evaluate and select high-quality mathematical content, and we
release the curated open-source AutoMathText dataset encompassing over 200GB of
data. To demonstrate the efficacy of our method, we continuously pretrained a
7B-parameter Mistral language model on the AutoMathText dataset, achieving
substantial improvements in downstream performance on the MATH dataset with a
token amount reduced by orders of magnitude compared to previous continuous
pretraining works. Our method showcases a 2 times increase in pretraining token
efficiency compared to baselines, underscoring the potential of our approach in
enhancing models' mathematical reasoning capabilities. The AutoMathText dataset
is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code
is available at https://github.com/yifanzhang-pro/AutoMathText.