Llemma: Un modelo de lenguaje abierto para matemáticas
Llemma: An Open Language Model For Mathematics
October 16, 2023
Autores: Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
cs.AI
Resumen
Presentamos Llemma, un modelo de lenguaje a gran escala para matemáticas. Continuamos el entrenamiento previo de Code Llama en el Proof-Pile-2, una mezcla de artículos científicos, datos web que contienen matemáticas y código matemático, lo que da como resultado Llemma. En el benchmark MATH, Llemma supera a todos los modelos base abiertos conocidos, así como a la suite de modelos Minerva no lanzada, en una base de parámetros equivalentes. Además, Llemma es capaz de utilizar herramientas y realizar demostraciones formales de teoremas sin necesidad de ajustes adicionales. Publicamos abiertamente todos los artefactos, incluyendo modelos de 7 mil millones y 34 mil millones de parámetros, el Proof-Pile-2 y el código para replicar nuestros experimentos.
English
We present Llemma, a large language model for mathematics. We continue
pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web
data containing mathematics, and mathematical code, yielding Llemma. On the
MATH benchmark Llemma outperforms all known open base models, as well as the
unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is
capable of tool use and formal theorem proving without any further finetuning.
We openly release all artifacts, including 7 billion and 34 billion parameter
models, the Proof-Pile-2, and code to replicate our experiments.