ChatPaper.aiChatPaper

Llemma: Un Modello Linguistico Aperto per la Matematica

Llemma: An Open Language Model For Mathematics

October 16, 2023
Autori: Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
cs.AI

Abstract

Presentiamo Llemma, un modello linguistico su larga scala per la matematica. Abbiamo continuato il pre-addestramento di Code Llama sul Proof-Pile-2, una miscela di articoli scientifici, dati web contenenti matematica e codice matematico, ottenendo così Llemma. Sul benchmark MATH, Llemma supera tutti i modelli base open conosciuti, nonché la suite di modelli Minerva non ancora rilasciata, su una base equi-parametrica. Inoltre, Llemma è in grado di utilizzare strumenti e di dimostrare teoremi formali senza ulteriori aggiustamenti. Rilasciamo apertamente tutti gli artefatti, inclusi i modelli da 7 miliardi e 34 miliardi di parametri, il Proof-Pile-2 e il codice per replicare i nostri esperimenti.
English
We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
PDF566December 14, 2025