ChatPaper.aiChatPaper

Обычные языковые модели 7B уже обладают сильными математическими способностями.

Common 7B Language Models Already Possess Strong Math Capabilities

March 7, 2024
Авторы: Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng
cs.AI

Аннотация

Математические способности ранее считались возникающими в общих языковых моделях только на очень большом масштабе или требующими обширного предварительного обучения по математике. В данной статье показано, что модель LLaMA-2 7B с общим предварительным обучением уже обладает сильными математическими способностями, о чем свидетельствует ее впечатляющая точность 97,7% и 72,0% на бенчмарках GSM8K и MATH соответственно при выборе лучшего ответа из 256 случайных генераций. Основная проблема текущей базовой модели заключается в сложности последовательного вызова ее врожденных математических способностей. Заметим, что точность для первого ответа снижается до 49,5% и 7,9% на бенчмарках GSM8K и MATH соответственно. Мы обнаружили, что простое увеличение данных SFT может значительно улучшить надежность генерации правильных ответов. Однако потенциал для обширного масштабирования ограничен дефицитом общедоступных математических вопросов. Для преодоления этого ограничения мы используем синтетические данные, которые оказываются почти так же эффективными, как реальные данные, и не показывают явного насыщения при увеличении до примерно одного миллиона образцов. Этот простой подход достигает точности 82,6% на GSM8K и 40,6% на MATH с использованием моделей LLaMA-2 7B, превосходя предыдущие модели на 14,2% и 20,8% соответственно. Мы также предоставляем понимание поведения масштабирования в различных уровнях сложности рассуждений и типах ошибок.
English
Mathematical capabilities were previously believed to emerge in common language models only at a very large scale or require extensive math-related pre-training. This paper shows that the LLaMA-2 7B model with common pre-training already exhibits strong mathematical abilities, as evidenced by its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks, respectively, when selecting the best response from 256 random generations. The primary issue with the current base model is the difficulty in consistently eliciting its inherent mathematical capabilities. Notably, the accuracy for the first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks, respectively. We find that simply scaling up the SFT data can significantly enhance the reliability of generating correct answers. However, the potential for extensive scaling is constrained by the scarcity of publicly available math questions. To overcome this limitation, we employ synthetic data, which proves to be nearly as effective as real data and shows no clear saturation when scaled up to approximately one million samples. This straightforward approach achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B models, surpassing previous models by 14.2% and 20.8%, respectively. We also provide insights into scaling behaviors across different reasoning complexities and error types.
PDF211December 15, 2024