AutoMathText: 수학 텍스트를 위한 언어 모델 기반 자율 데이터 선택
AutoMathText: Autonomous Data Selection with Language Models for Mathematical Texts
February 12, 2024
저자: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao
cs.AI
초록
언어 모델의 수학적 추론 능력을 지속적 사전 학습을 통해 개선하기 위해, 우리는 기본 언어 모델을 활용한 자율 데이터 선택 전략을 도입합니다. 기존의 지도 미세 조정이나 인간이 주석을 단 데이터로 훈련된 분류기를 사용하는 방식과는 달리, 우리의 접근 방식은 메타 프롬프트 언어 모델을 제로샷 검증기로 활용하여 고품질 수학 콘텐츠를 자율적으로 평가하고 선택하며, 이를 통해 200GB 이상의 데이터를 포함한 오픈소스 AutoMathText 데이터셋을 공개합니다. 우리의 방법의 효과를 입증하기 위해, 7B 파라미터 Mistral 언어 모델을 AutoMathText 데이터셋으로 지속적으로 사전 학습시켰으며, 이전의 지속적 사전 학습 작업에 비해 토큰 양을 크게 줄이면서 MATH 데이터셋에서의 하위 작업 성능이 크게 향상되었음을 확인했습니다. 우리의 방법은 기준선 대비 사전 학습 토큰 효율성을 2배 증가시켰으며, 이는 모델의 수학적 추론 능력을 향상시키는 데 있어 우리의 접근 방식의 잠재력을 강조합니다. AutoMathText 데이터셋은 https://huggingface.co/datasets/math-ai/AutoMathText에서 확인할 수 있으며, 코드는 https://github.com/yifanzhang-pro/AutoMathText에서 제공됩니다.
English
To improve language models' proficiency in mathematical reasoning via
continual pretraining, we introduce a novel strategy that leverages base
language models for autonomous data selection. Departing from conventional
supervised fine-tuning or trained classifiers with human-annotated data, our
approach utilizes meta-prompted language models as zero-shot verifiers to
autonomously evaluate and select high-quality mathematical content, and we
release the curated open-source AutoMathText dataset encompassing over 200GB of
data. To demonstrate the efficacy of our method, we continuously pretrained a
7B-parameter Mistral language model on the AutoMathText dataset, achieving
substantial improvements in downstream performance on the MATH dataset with a
token amount reduced by orders of magnitude compared to previous continuous
pretraining works. Our method showcases a 2 times increase in pretraining token
efficiency compared to baselines, underscoring the potential of our approach in
enhancing models' mathematical reasoning capabilities. The AutoMathText dataset
is available at https://huggingface.co/datasets/math-ai/AutoMathText. The code
is available at https://github.com/yifanzhang-pro/AutoMathText.