Llemma: Ein offenes Sprachmodell für Mathematik
Llemma: An Open Language Model For Mathematics
October 16, 2023
Autoren: Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
cs.AI
Zusammenfassung
Wir stellen Llemma vor, ein großes Sprachmodell für Mathematik. Wir setzen das Vortraining von Code Llama auf dem Proof-Pile-2 fort, einer Mischung aus wissenschaftlichen Artikeln, Webdaten mit mathematischem Inhalt und mathematischem Code, wodurch Llemma entsteht. Auf dem MATH-Benchmark übertrifft Llemma alle bekannten offenen Basismodelle sowie die nicht veröffentlichte Minerva-Modellreihe auf einer äquivalenten Parameterbasis. Darüber hinaus ist Llemma in der Lage, Werkzeuge zu nutzen und formale Beweise zu führen, ohne dass zusätzliches Fein-Tuning erforderlich ist. Wir veröffentlichen alle Artefakte offen, einschließlich der Modelle mit 7 Milliarden und 34 Milliarden Parametern, den Proof-Pile-2 sowie den Code zur Reproduktion unserer Experimente.
English
We present Llemma, a large language model for mathematics. We continue
pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web
data containing mathematics, and mathematical code, yielding Llemma. On the
MATH benchmark Llemma outperforms all known open base models, as well as the
unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is
capable of tool use and formal theorem proving without any further finetuning.
We openly release all artifacts, including 7 billion and 34 billion parameter
models, the Proof-Pile-2, and code to replicate our experiments.