ChatPaper.aiChatPaper

AutoMathText: Автономный отбор данных с использованием языковых моделей для математических текстов

AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts

February 12, 2024
Авторы: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
cs.AI

Аннотация

Для повышения уровня математического мышления языковых моделей посредством непрерывного предварительного обучения мы представляем новую стратегию, которая использует базовые языковые модели для автономного выбора данных. В отличие от традиционного тонкого настройки с учителем или обученных классификаторов с аннотированными человеком данными, наш подход применяет мета-запрашиваемые языковые модели в качестве верификаторов с нулевым обучением для автономной оценки и выбора высококачественного математического контента, и мы выпускаем курированный открытый набор данных AutoMathText, содержащий более 200 ГБ данных. Чтобы продемонстрировать эффективность нашего метода, мы непрерывно предварительно обучали языковую модель Mistral с 7 миллиардами параметров на наборе данных AutoMathText, достигнув значительных улучшений в производительности на наборе данных MATH при сокращении количества токенов на порядки по сравнению с предыдущими работами по непрерывному предварительному обучению. Наш метод демонстрирует двукратное увеличение эффективности использования токенов при предварительном обучении по сравнению с базовыми подходами, подчеркивая потенциал нашего метода в улучшении математических способностей моделей. Набор данных AutoMathText доступен по адресу https://huggingface.co/datasets/math-ai/AutoMathText. Код доступен по адресу https://github.com/yifanzhang-pro/AutoMathText.
English
To improve language models' proficiency in mathematical reasoning via continual pretraining, we introduce a novel strategy that leverages base language models for autonomous data selection. Departing from conventional supervised fine-tuning or trained classifiers with human-annotated data, our approach utilizes meta-prompted language models as zero-shot verifiers to autonomously evaluate and select high-quality mathematical content, and we release the curated open-source AutoMathText dataset encompassing over 200GB of data. To demonstrate the efficacy of our method, we continuously pretrained a 7B-parameter Mistral language model on the AutoMathText dataset, achieving substantial improvements in downstream performance on the MATH dataset with a token amount reduced by orders of magnitude compared to previous continuous pretraining works. Our method showcases a 2 times increase in pretraining token efficiency compared to baselines, underscoring the potential of our approach in enhancing models' mathematical reasoning capabilities. The AutoMathText dataset is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code is available at https://github.com/yifanzhang-pro/AutoMathText.
PDF152December 15, 2024