Llama-GENBA-10B: ドイツ語、英語、バイエルン語に対応する三言語大規模言語モデル
Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
September 6, 2025
著者: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
cs.AI
要旨
Llama-GENBA-10Bを紹介します。これは、大規模言語モデルにおける英語中心のバイアスに対処するための三言語基盤モデルです。Llama 3.1-8Bを基盤として構築され、100億パラメータにスケールアップされたLlama-GENBA-10Bは、1640億トークン(英語820億、ドイツ語820億、バイエルン語8000万)で継続的に事前学習され、リソースのバランスを取りながら英語の支配を防ぎます。ドイツ語NLPコミュニティを主な対象としつつ、低リソース言語であるバイエルン語の促進も図っています。開発では、以下の4つの課題に取り組みました:(1) バイエルン語の不足にもかかわらず多言語コーパスをキュレーションすること、(2) 英語、ドイツ語、バイエルン語の統一トークナイザーを作成すること、(3) 言語間転移のためのアーキテクチャと言語比率のハイパーパラメータを最適化すること、(4) ドイツ語のベンチマークをバイエルン語に翻訳することで、初の標準化された三言語評価スイートを確立することです。評価の結果、Llama-GENBA-10Bは強力な言語間性能を発揮し、ファインチューニングされたバリアントはApertus-8B-2509とgemma-2-9bをバイエルン語で上回り、この言語におけるクラス最高のモデルとしての地位を確立しました。また、英語ではEuroLLMを上回り、ドイツ語では同等の結果を達成しました。Cerebras CS-2でのトレーニングは、エネルギー使用量を記録しながら大規模な多言語事前学習を効率的に行い、低リソース言語を統合する包括的な基盤モデルの青写真を提供しています。
English
We present Llama-GENBA-10B, a trilingual foundation model addressing
English-centric bias in large language models. Built on Llama 3.1-8B and scaled
to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens
(82B English, 82B German, and 80M Bavarian), balancing resources while
preventing English dominance. Targeted at the German NLP community, the model
also promotes Bavarian as a low-resource language. Development tackled four
challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2)
creating a unified tokenizer for English, German, and Bavarian, (3) optimizing
architecture and language-ratio hyperparameters for cross-lingual transfer, and
(4) establishing the first standardized trilingual evaluation suite by
translating German benchmarks into Bavarian. Evaluations show that
Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned
variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing
itself as the best model in its class for this language, while also
outperforming EuroLLM in English and matching its results in German. Training
on the Cerebras CS-2 demonstrated efficient large-scale multilingual
pretraining with documented energy use, offering a blueprint for inclusive
foundation models that integrate low-resource languages.