Llemma: Ein offenes Sprachmodell für Mathematik

Zusammenfassung

Wir stellen Llemma vor, ein großes Sprachmodell für Mathematik. Wir setzen das Vortraining von Code Llama auf dem Proof-Pile-2 fort, einer Mischung aus wissenschaftlichen Artikeln, Webdaten mit mathematischem Inhalt und mathematischem Code, wodurch Llemma entsteht. Auf dem MATH-Benchmark übertrifft Llemma alle bekannten offenen Basismodelle sowie die nicht veröffentlichte Minerva-Modellreihe auf einer äquivalenten Parameterbasis. Darüber hinaus ist Llemma in der Lage, Werkzeuge zu nutzen und formale Beweise zu führen, ohne dass zusätzliches Fein-Tuning erforderlich ist. Wir veröffentlichen alle Artefakte offen, einschließlich der Modelle mit 7 Milliarden und 34 Milliarden Parametern, den Proof-Pile-2 sowie den Code zur Reproduktion unserer Experimente.

English

We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

Llemma: Ein offenes Sprachmodell für Mathematik

Llemma: An Open Language Model For Mathematics

Zusammenfassung

Support