AutoMathText: Selección Autónoma de Datos con Modelos de Lenguaje para Textos Matemáticos

Resumen

Para mejorar la competencia de los modelos de lenguaje en razonamiento matemático mediante entrenamiento previo continuo, presentamos una estrategia novedosa que aprovecha modelos de lenguaje base para la selección autónoma de datos. A diferencia de los enfoques convencionales de ajuste fino supervisado o clasificadores entrenados con datos anotados manualmente, nuestro método utiliza modelos de lenguaje con meta-prompting como verificadores de cero disparos para evaluar y seleccionar de manera autónoma contenido matemático de alta calidad, y publicamos el conjunto de datos de código abierto AutoMathText, que abarca más de 200 GB de datos. Para demostrar la eficacia de nuestro método, realizamos un entrenamiento previo continuo de un modelo de lenguaje Mistral de 7 mil millones de parámetros en el conjunto de datos AutoMathText, logrando mejoras significativas en el rendimiento posterior en el conjunto de datos MATH, con una cantidad de tokens reducida en órdenes de magnitud en comparación con trabajos previos de entrenamiento previo continuo. Nuestro método muestra un aumento de 2 veces en la eficiencia de tokens durante el entrenamiento previo en comparación con los métodos de referencia, destacando el potencial de nuestro enfoque para mejorar las capacidades de razonamiento matemático de los modelos. El conjunto de datos AutoMathText está disponible en https://huggingface.co/datasets/math-ai/AutoMathText. El código está disponible en https://github.com/yifanzhang-pro/AutoMathText.

English

To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach utilizes meta-prompted language models as zero-shot verifiers to autonomously evaluate and select high-quality mathematical content, and we release the curated open-source AutoMathText dataset encompassing over 200GB of data. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter Mistral language model on the AutoMathText dataset, achieving substantial improvements in downstream performance on the MATH dataset with a token amount reduced by orders of magnitude compared to previous continuous pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.

AutoMathText: Selección Autónoma de Datos con Modelos de Lenguaje para Textos Matemáticos

AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

Resumen

Support