AutoMathText: Автономный отбор данных с использованием языковых моделей для математических текстов

Аннотация

Для повышения уровня математического мышления языковых моделей посредством непрерывного предварительного обучения мы представляем новую стратегию, которая использует базовые языковые модели для автономного выбора данных. В отличие от традиционного тонкого настройки с учителем или обученных классификаторов с аннотированными человеком данными, наш подход применяет мета-запрашиваемые языковые модели в качестве верификаторов с нулевым обучением для автономной оценки и выбора высококачественного математического контента, и мы выпускаем курированный открытый набор данных AutoMathText, содержащий более 200 ГБ данных. Чтобы продемонстрировать эффективность нашего метода, мы непрерывно предварительно обучали языковую модель Mistral с 7 миллиардами параметров на наборе данных AutoMathText, достигнув значительных улучшений в производительности на наборе данных MATH при сокращении количества токенов на порядки по сравнению с предыдущими работами по непрерывному предварительному обучению. Наш метод демонстрирует двукратное увеличение эффективности использования токенов при предварительном обучении по сравнению с базовыми подходами, подчеркивая потенциал нашего метода в улучшении математических способностей моделей. Набор данных AutoMathText доступен по адресу https://huggingface.co/datasets/math-ai/AutoMathText. Код доступен по адресу https://github.com/yifanzhang-pro/AutoMathText.

English

To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach utilizes meta-prompted language models as zero-shot verifiers to autonomously evaluate and select high-quality mathematical content, and we release the curated open-source AutoMathText dataset encompassing over 200GB of data. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter Mistral language model on the AutoMathText dataset, achieving substantial improvements in downstream performance on the MATH dataset with a token amount reduced by orders of magnitude compared to previous continuous pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.

AutoMathText: Автономный отбор данных с использованием языковых моделей для математических текстов

AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

Аннотация

Support