TinyGSM: достижение более 80% точности на GSM8k с использованием компактных языковых моделей
TinyGSM: achieving >80% on GSM8k with small language models
December 14, 2023
Авторы: Bingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang
cs.AI
Аннотация
Модели небольшого масштаба предлагают различные вычислительные преимущества, однако вопрос о том, насколько критичен размер для способности решать задачи, остается открытым. В частности, для решения задач по математике начальной школы минимальный размер модели, необходимый для преодоления барьера в 80\% на бенчмарке GSM8K, до сих пор составляет 34 миллиарда параметров. Наша работа исследует, как высококачественные наборы данных могут стать ключом к тому, чтобы небольшие языковые модели приобрели способность к математическому рассуждению. Мы представляем TinyGSM — синтетический набор данных, содержащий 12,3 миллиона задач по математике начальной школы, сопряженных с решениями на Python, полностью сгенерированными моделью GPT-3.5. После тонкой настройки на TinyGSM мы обнаружили, что дуэт из генеративной модели на 1,3 миллиарда параметров и модели-верификатора на 1,3 миллиарда параметров может достичь точности в 81,5\%, превосходя существующие модели, которые на порядки больше. Этот результат также сопоставим с производительностью модели GPT-3.5 (77,4\%), которая выступала в роли «учителя» и генерировала данные для обучения нашей модели. Наш подход прост и состоит из двух ключевых компонентов: 1) высококачественного набора данных TinyGSM, 2) использования верификатора, который выбирает окончательные ответы из множества кандидатов, сгенерированных моделью.
English
Small-scale models offer various computational advantages, and yet to which
extent size is critical for problem-solving abilities remains an open question.
Specifically for solving grade school math, the smallest model size so far
required to break the 80\% barrier on the GSM8K benchmark remains to be 34B.
Our work studies how high-quality datasets may be the key for small language
models to acquire mathematical reasoning. We introduce TinyGSM, a
synthetic dataset of 12.3M grade school math problems paired with Python
solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we
find that a duo of a 1.3B generation model and a 1.3B verifier model can
achieve 81.5\% accuracy, outperforming existing models that are orders of
magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher''
model (77.4\%), from which our model's training data is generated. Our approach
is simple and has two key components: 1) the high-quality dataset
TinyGSM, 2) the use of a verifier, which selects the final outputs
from multiple candidate generations.