TinyGSM: 소형 언어 모델로 GSM8k에서 80% 이상 달성하기
TinyGSM: achieving >80% on GSM8k with small language models
December 14, 2023
저자: Bingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang
cs.AI
초록
소규모 모델은 다양한 계산상의 이점을 제공하지만, 문제 해결 능력에 있어서 모델 크기가 어느 정도까지 중요한지에 대한 의문은 여전히 열려 있습니다. 특히 초등학교 수학 문제 해결을 위해 GSM8K 벤치마크에서 80% 벽을 돌파하기 위해 필요한 최소 모델 크기는 현재까지 340억 파라미터입니다. 본 연구는 고품질 데이터셋이 소규모 언어 모델이 수학적 추론 능력을 습득하는 데 있어 핵심이 될 수 있는지를 탐구합니다. 우리는 GPT-3.5로 완전히 생성된 1,230만 개의 초등학교 수학 문제와 Python 솔루션으로 구성된 합성 데이터셋인 TinyGSM을 소개합니다. TinyGSM으로 미세 조정한 후, 13억 파라미터 생성 모델과 13억 파라미터 검증 모델로 구성된 모델이 81.5%의 정확도를 달성하여 기존의 훨씬 더 큰 모델들을 능가하는 것을 확인했습니다. 이는 또한 우리 모델의 학습 데이터를 생성한 GPT-3.5 '교사' 모델의 성능(77.4%)과도 비슷한 수준입니다. 우리의 접근 방식은 간단하며 두 가지 핵심 요소로 구성됩니다: 1) 고품질 데이터셋 TinyGSM, 2) 여러 후보 생성물 중에서 최종 출력을 선택하는 검증기의 사용.
English
Small-scale models offer various computational advantages, and yet to which
extent size is critical for problem-solving abilities remains an open question.
Specifically for solving grade school math, the smallest model size so far
required to break the 80\% barrier on the GSM8K benchmark remains to be 34B.
Our work studies how high-quality datasets may be the key for small language
models to acquire mathematical reasoning. We introduce TinyGSM, a
synthetic dataset of 12.3M grade school math problems paired with Python
solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we
find that a duo of a 1.3B generation model and a 1.3B verifier model can
achieve 81.5\% accuracy, outperforming existing models that are orders of
magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher''
model (77.4\%), from which our model's training data is generated. Our approach
is simple and has two key components: 1) the high-quality dataset
TinyGSM, 2) the use of a verifier, which selects the final outputs
from multiple candidate generations.