Llemma: Een Open Taalmodel voor Wiskunde
Llemma: An Open Language Model For Mathematics
October 16, 2023
Auteurs: Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
cs.AI
Samenvatting
Wij presenteren Llemma, een groot taalmodel voor wiskunde. We hebben Code Llama verder voorgetraind op de Proof-Pile-2, een mix van wetenschappelijke artikelen, webdata met wiskundige inhoud en wiskundige code, wat resulteerde in Llemma. Op de MATH-benchmark presteert Llemma beter dan alle bekende open basismodellen, evenals de niet-uitgebrachte Minerva-modelreeks op een equi-parameterbasis. Bovendien is Llemma in staat tot het gebruik van tools en formeel bewijzen van stellingen zonder verdere finetuning. Wij geven alle artefacten vrij, inclusief modellen met 7 miljard en 34 miljard parameters, de Proof-Pile-2 en code om onze experimenten te repliceren.
English
We present Llemma, a large language model for mathematics. We continue
pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web
data containing mathematics, and mathematical code, yielding Llemma. On the
MATH benchmark Llemma outperforms all known open base models, as well as the
unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is
capable of tool use and formal theorem proving without any further finetuning.
We openly release all artifacts, including 7 billion and 34 billion parameter
models, the Proof-Pile-2, and code to replicate our experiments.