Llemma : Un modèle de langage ouvert pour les mathématiques
Llemma: An Open Language Model For Mathematics
October 16, 2023
Auteurs: Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
cs.AI
Résumé
Nous présentons Llemma, un grand modèle de langage dédié aux mathématiques. Nous avons poursuivi le pré-entraînement de Code Llama sur le Proof-Pile-2, un mélange d'articles scientifiques, de données web contenant des mathématiques et de code mathématique, ce qui a donné naissance à Llemma. Sur le benchmark MATH, Llemma surpasse tous les modèles de base ouverts connus, ainsi que la suite de modèles Minerva non publiée, sur une base équi-paramétrique. De plus, Llemma est capable d'utiliser des outils et de réaliser des preuves de théorèmes formels sans aucun ajustement supplémentaire. Nous rendons publics tous les artefacts, y compris les modèles de 7 milliards et 34 milliards de paramètres, le Proof-Pile-2, ainsi que le code pour reproduire nos expériences.
English
We present Llemma, a large language model for mathematics. We continue
pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web
data containing mathematics, and mathematical code, yielding Llemma. On the
MATH benchmark Llemma outperforms all known open base models, as well as the
unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is
capable of tool use and formal theorem proving without any further finetuning.
We openly release all artifacts, including 7 billion and 34 billion parameter
models, the Proof-Pile-2, and code to replicate our experiments.