Llama-GENBA-10B: Ein dreisprachiges Großsprachenmodell für Deutsch, Englisch und Bairisch
Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
September 6, 2025
papers.authors: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
cs.AI
papers.abstract
Wir präsentieren Llama-GENBA-10B, ein dreisprachiges Basismodell, das die englischzentrierte Verzerrung in großen Sprachmodellen adressiert. Basierend auf Llama 3.1-8B und auf 10 Milliarden Parameter skaliert, wurde Llama-GENBA-10B kontinuierlich mit 164 Milliarden Tokens (82 Milliarden Englisch, 82 Milliarden Deutsch und 80 Millionen Bairisch) vortrainiert, um Ressourcen auszugleichen und die Dominanz des Englischen zu verhindern. Das Modell richtet sich an die deutsche NLP-Community und fördert gleichzeitig Bairisch als ressourcenarme Sprache. Die Entwicklung bewältigte vier Herausforderungen: (1) die Zusammenstellung eines mehrsprachigen Korpus trotz der Knappheit von Bairisch, (2) die Erstellung eines einheitlichen Tokenizers für Englisch, Deutsch und Bairisch, (3) die Optimierung der Architektur und der Sprachverhältnis-Hyperparameter für den sprachübergreifenden Transfer sowie (4) die Einrichtung der ersten standardisierten dreisprachigen Evaluationssuite durch die Übersetzung deutscher Benchmarks ins Bairische. Die Auswertungen zeigen, dass Llama-GENBA-10B eine starke sprachübergreifende Leistung erzielt, wobei die feinabgestimmte Variante Apertus-8B-2509 und gemma-2-9b im Bairischen übertrifft und sich als das beste Modell seiner Klasse für diese Sprache etabliert, während es auch EuroLLM im Englischen übertrifft und dessen Ergebnisse im Deutschen erreicht. Das Training auf dem Cerebras CS-2 demonstrierte effizientes großflächiges mehrsprachiges Vortraining mit dokumentiertem Energieverbrauch und bietet einen Leitfaden für inklusive Basismodelle, die ressourcenarme Sprachen integrieren.
English
We present Llama-GENBA-10B, a trilingual foundation model addressing
English-centric bias in large language models. Built on Llama 3.1-8B and scaled
to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens
(82B English, 82B German, and 80M Bavarian), balancing resources while
preventing English dominance. Targeted at the German NLP community, the model
also promotes Bavarian as a low-resource language. Development tackled four
challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2)
creating a unified tokenizer for English, German, and Bavarian, (3) optimizing
architecture and language-ratio hyperparameters for cross-lingual transfer, and
(4) establishing the first standardized trilingual evaluation suite by
translating German benchmarks into Bavarian. Evaluations show that
Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned
variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing
itself as the best model in its class for this language, while also
outperforming EuroLLM in English and matching its results in German. Training
on the Cerebras CS-2 demonstrated efficient large-scale multilingual
pretraining with documented energy use, offering a blueprint for inclusive
foundation models that integrate low-resource languages.