TinyGSM: alcançando mais de 80% no GSM8k com modelos de linguagem pequenos
TinyGSM: achieving >80% on GSM8k with small language models
December 14, 2023
Autores: Bingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang
cs.AI
Resumo
Modelos em pequena escala oferecem diversas vantagens computacionais, mas até que ponto o tamanho é crucial para habilidades de resolução de problemas ainda é uma questão em aberto. Especificamente para resolver matemática do ensino fundamental, o menor tamanho de modelo necessário até agora para superar a barreira de 80\% no benchmark GSM8K permanece sendo 34B. Nosso trabalho investiga como conjuntos de dados de alta qualidade podem ser a chave para que modelos de linguagem pequenos adquiram raciocínio matemático. Apresentamos o TinyGSM, um conjunto de dados sintético de 12,3 milhões de problemas de matemática do ensino fundamental emparelhados com soluções em Python, gerados integralmente pelo GPT-3.5. Após o ajuste fino no TinyGSM, descobrimos que um duo composto por um modelo de geração de 1,3B e um modelo verificador de 1,3B pode alcançar 81,5\% de precisão, superando modelos existentes que são ordens de magnitude maiores. Isso também rivaliza com o desempenho do modelo "professor" GPT-3.5 (77,4\%), a partir do qual os dados de treinamento do nosso modelo foram gerados. Nossa abordagem é simples e possui dois componentes principais: 1) o conjunto de dados de alta qualidade TinyGSM, 2) o uso de um verificador, que seleciona as saídas finais a partir de múltiplas gerações candidatas.
English
Small-scale models offer various computational advantages, and yet to which
extent size is critical for problem-solving abilities remains an open question.
Specifically for solving grade school math, the smallest model size so far
required to break the 80\% barrier on the GSM8K benchmark remains to be 34B.
Our work studies how high-quality datasets may be the key for small language
models to acquire mathematical reasoning. We introduce TinyGSM, a
synthetic dataset of 12.3M grade school math problems paired with Python
solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we
find that a duo of a 1.3B generation model and a 1.3B verifier model can
achieve 81.5\% accuracy, outperforming existing models that are orders of
magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher''
model (77.4\%), from which our model's training data is generated. Our approach
is simple and has two key components: 1) the high-quality dataset
TinyGSM, 2) the use of a verifier, which selects the final outputs
from multiple candidate generations.