ChatPaper.aiChatPaper

Llemma: Открытая языковая модель для математики

Llemma: An Open Language Model For Mathematics

October 16, 2023
Авторы: Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
cs.AI

Аннотация

Мы представляем Llemma, крупную языковую модель для математики. Мы продолжили предварительное обучение модели Code Llama на наборе данных Proof-Pile-2, представляющем собой смесь научных статей, веб-данных, содержащих математику, и математического кода, что привело к созданию Llemma. На бенчмарке MATH Llemma превосходит все известные открытые базовые модели, а также невыпущенный набор моделей Minerva при равном количестве параметров. Более того, Llemma способна использовать инструменты и выполнять формальное доказательство теорем без дополнительного тонкого настраивания. Мы открыто публикуем все материалы, включая модели с 7 и 34 миллиардами параметров, набор данных Proof-Pile-2 и код для воспроизведения наших экспериментов.
English
We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
PDF566December 15, 2024