Llemma: Un Modello Linguistico Aperto per la Matematica
Llemma: An Open Language Model For Mathematics
October 16, 2023
Autori: Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
cs.AI
Abstract
Presentiamo Llemma, un modello linguistico su larga scala per la matematica. Abbiamo continuato il pre-addestramento di Code Llama sul Proof-Pile-2, una miscela di articoli scientifici, dati web contenenti matematica e codice matematico, ottenendo così Llemma. Sul benchmark MATH, Llemma supera tutti i modelli base open conosciuti, nonché la suite di modelli Minerva non ancora rilasciata, su una base equi-parametrica. Inoltre, Llemma è in grado di utilizzare strumenti e di dimostrare teoremi formali senza ulteriori aggiustamenti. Rilasciamo apertamente tutti gli artefatti, inclusi i modelli da 7 miliardi e 34 miliardi di parametri, il Proof-Pile-2 e il codice per replicare i nostri esperimenti.
English
We present Llemma, a large language model for mathematics. We continue
pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web
data containing mathematics, and mathematical code, yielding Llemma. On the
MATH benchmark Llemma outperforms all known open base models, as well as the
unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is
capable of tool use and formal theorem proving without any further finetuning.
We openly release all artifacts, including 7 billion and 34 billion parameter
models, the Proof-Pile-2, and code to replicate our experiments.