ChatPaper.aiChatPaper

Llemma: Um Modelo de Linguagem Aberto para Matemática

Llemma: An Open Language Model For Mathematics

October 16, 2023
Autores: Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
cs.AI

Resumo

Apresentamos o Llemma, um grande modelo de linguagem para matemática. Continuamos o pré-treinamento do Code Llama no Proof-Pile-2, uma mistura de artigos científicos, dados da web contendo matemática e código matemático, resultando no Llemma. No benchmark MATH, o Llemma supera todos os modelos base abertos conhecidos, bem como a suíte de modelos Minerva não lançada, em uma base equi-paramétrica. Além disso, o Llemma é capaz de utilizar ferramentas e realizar provas formais de teoremas sem qualquer ajuste adicional. Disponibilizamos abertamente todos os artefatos, incluindo modelos de 7 bilhões e 34 bilhões de parâmetros, o Proof-Pile-2 e o código para replicar nossos experimentos.
English
We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
PDF566December 14, 2025