Llemma: 数学のためのオープン言語モデル
Llemma: An Open Language Model For Mathematics
October 16, 2023
著者: Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q. Jiang, Jia Deng, Stella Biderman, Sean Welleck
cs.AI
要旨
我々は、数学に特化した大規模言語モデルLlemmaを発表します。Code LlamaをProof-Pile-2(科学論文、数学を含むウェブデータ、数学的コードの混合物)で継続事前学習し、Llemmaを開発しました。MATHベンチマークにおいて、Llemmaは既知の全てのオープンベースモデルを上回り、未公開のMinervaモデルスイートとも同等パラメータ数で比較して優れた性能を示します。さらに、Llemmaは追加のファインチューニングなしでツール使用や形式的定理証明が可能です。我々は、70億パラメータと340億パラメータのモデル、Proof-Pile-2、実験を再現するためのコードを含む全ての成果物を公開します。
English
We present Llemma, a large language model for mathematics. We continue
pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web
data containing mathematics, and mathematical code, yielding Llemma. On the
MATH benchmark Llemma outperforms all known open base models, as well as the
unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is
capable of tool use and formal theorem proving without any further finetuning.
We openly release all artifacts, including 7 billion and 34 billion parameter
models, the Proof-Pile-2, and code to replicate our experiments.