AutoMathText: Selección Autónoma de Datos con Modelos de Lenguaje para Textos Matemáticos
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts
February 12, 2024
Autores: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
cs.AI
Resumen
Para mejorar la competencia de los modelos de lenguaje en razonamiento matemático mediante entrenamiento previo continuo, presentamos una estrategia novedosa que aprovecha modelos de lenguaje base para la selección autónoma de datos. A diferencia de los enfoques convencionales de ajuste fino supervisado o clasificadores entrenados con datos anotados manualmente, nuestro método utiliza modelos de lenguaje con meta-prompting como verificadores de cero disparos para evaluar y seleccionar de manera autónoma contenido matemático de alta calidad, y publicamos el conjunto de datos de código abierto AutoMathText, que abarca más de 200 GB de datos. Para demostrar la eficacia de nuestro método, realizamos un entrenamiento previo continuo de un modelo de lenguaje Mistral de 7 mil millones de parámetros en el conjunto de datos AutoMathText, logrando mejoras significativas en el rendimiento posterior en el conjunto de datos MATH, con una cantidad de tokens reducida en órdenes de magnitud en comparación con trabajos previos de entrenamiento previo continuo. Nuestro método muestra un aumento de 2 veces en la eficiencia de tokens durante el entrenamiento previo en comparación con los métodos de referencia, destacando el potencial de nuestro enfoque para mejorar las capacidades de razonamiento matemático de los modelos. El conjunto de datos AutoMathText está disponible en https://huggingface.co/datasets/math-ai/AutoMathText. El código está disponible en https://github.com/yifanzhang-pro/AutoMathText.
English
To improve language models' proficiency in mathematical reasoning via
continual pretraining, we introduce a novel strategy that leverages base
language models for autonomous data selection. Departing from conventional
supervised fine-tuning or trained classifiers with human-annotated data, our
approach utilizes meta-prompted language models as zero-shot verifiers to
autonomously evaluate and select high-quality mathematical content, and we
release the curated open-source AutoMathText dataset encompassing over 200GB of
data. To demonstrate the efficacy of our method, we continuously pretrained a
7B-parameter Mistral language model on the AutoMathText dataset, achieving
substantial improvements in downstream performance on the MATH dataset with a
token amount reduced by orders of magnitude compared to previous continuous
pretraining works. Our method showcases a 2 times increase in pretraining token
efficiency compared to baselines, underscoring the potential of our approach in
enhancing models' mathematical reasoning capabilities. The AutoMathText dataset
is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code
is available at https://github.com/yifanzhang-pro/AutoMathText.