TinyGSM: logrando más del 80% en GSM8k con modelos de lenguaje pequeños
TinyGSM: achieving >80% on GSM8k with small language models
December 14, 2023
Autores: Bingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang
cs.AI
Resumen
Los modelos a pequeña escala ofrecen diversas ventajas computacionales, aunque hasta qué punto el tamaño es crítico para las habilidades de resolución de problemas sigue siendo una pregunta abierta. Específicamente, para resolver matemáticas de nivel escolar, el tamaño de modelo más pequeño requerido hasta ahora para superar la barrera del 80\% en el benchmark GSM8K sigue siendo de 34B. Nuestro trabajo estudia cómo los conjuntos de datos de alta calidad pueden ser la clave para que los modelos de lenguaje pequeños adquieran razonamiento matemático. Presentamos TinyGSM, un conjunto de datos sintético de 12.3M problemas de matemáticas de nivel escolar emparejados con soluciones en Python, generado completamente por GPT-3.5. Tras el ajuste fino en TinyGSM, encontramos que un dúo compuesto por un modelo de generación de 1.3B y un modelo verificador de 1.3B puede alcanzar una precisión del 81.5\%, superando a modelos existentes que son órdenes de magnitud más grandes. Esto también rivaliza con el rendimiento del modelo "maestro" GPT-3.5 (77.4\%), del cual se generaron los datos de entrenamiento de nuestro modelo. Nuestro enfoque es simple y tiene dos componentes clave: 1) el conjunto de datos de alta calidad TinyGSM, 2) el uso de un verificador, que selecciona las salidas finales entre múltiples generaciones candidatas.
English
Small-scale models offer various computational advantages, and yet to which
extent size is critical for problem-solving abilities remains an open question.
Specifically for solving grade school math, the smallest model size so far
required to break the 80\% barrier on the GSM8K benchmark remains to be 34B.
Our work studies how high-quality datasets may be the key for small language
models to acquire mathematical reasoning. We introduce TinyGSM, a
synthetic dataset of 12.3M grade school math problems paired with Python
solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we
find that a duo of a 1.3B generation model and a 1.3B verifier model can
achieve 81.5\% accuracy, outperforming existing models that are orders of
magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher''
model (77.4\%), from which our model's training data is generated. Our approach
is simple and has two key components: 1) the high-quality dataset
TinyGSM, 2) the use of a verifier, which selects the final outputs
from multiple candidate generations.