Llemma: Un modelo de lenguaje abierto para matemáticas

Resumen

Presentamos Llemma, un modelo de lenguaje a gran escala para matemáticas. Continuamos el entrenamiento previo de Code Llama en el Proof-Pile-2, una mezcla de artículos científicos, datos web que contienen matemáticas y código matemático, lo que da como resultado Llemma. En el benchmark MATH, Llemma supera a todos los modelos base abiertos conocidos, así como a la suite de modelos Minerva no lanzada, en una base de parámetros equivalentes. Además, Llemma es capaz de utilizar herramientas y realizar demostraciones formales de teoremas sin necesidad de ajustes adicionales. Publicamos abiertamente todos los artefactos, incluyendo modelos de 7 mil millones y 34 mil millones de parámetros, el Proof-Pile-2 y el código para replicar nuestros experimentos.

English

We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.

Llemma: Un modelo de lenguaje abierto para matemáticas

Llemma: An Open Language Model For Mathematics

Resumen

Support