AutoMathText : Sélection autonome de données avec des modèles de langage pour les textes mathématiques

papers.abstract

Pour améliorer la maîtrise des modèles de langage en raisonnement mathématique via un pré-entraînement continu, nous introduisons une nouvelle stratégie qui exploite des modèles de langage de base pour la sélection autonome de données. S'écartant des méthodes conventionnelles de fine-tuning supervisé ou de classificateurs entraînés avec des données annotées manuellement, notre approche utilise des modèles de langage méta-invites comme vérificateurs zero-shot pour évaluer et sélectionner de manière autonome un contenu mathématique de haute qualité. Nous publions également le jeu de données open-source AutoMathText, contenant plus de 200 Go de données. Pour démontrer l'efficacité de notre méthode, nous avons effectué un pré-entraînement continu d'un modèle de langage Mistral à 7 milliards de paramètres sur le jeu de données AutoMathText, obtenant des améliorations significatives des performances en aval sur le jeu de données MATH, avec une quantité de tokens réduite de plusieurs ordres de grandeur par rapport aux travaux précédents de pré-entraînement continu. Notre méthode montre une efficacité de pré-entraînement en tokens deux fois supérieure à celle des approches de référence, soulignant le potentiel de notre approche pour améliorer les capacités de raisonnement mathématique des modèles. Le jeu de données AutoMathText est disponible à l'adresse https://huggingface.co/datasets/math-ai/AutoMathText. Le code est disponible à l'adresse https://github.com/yifanzhang-pro/AutoMathText.

English

To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach utilizes meta-prompted language models as zero-shot verifiers to autonomously evaluate and select high-quality mathematical content, and we release the curated open-source AutoMathText dataset encompassing over 200GB of data. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter Mistral language model on the AutoMathText dataset, achieving substantial improvements in downstream performance on the MATH dataset with a token amount reduced by orders of magnitude compared to previous continuous pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.

AutoMathText : Sélection autonome de données avec des modèles de langage pour les textes mathématiques

AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

papers.abstract

Support