Llama-GENBA-10B: Un modello linguistico di grandi dimensioni trilingue per tedesco, inglese e bavarese
Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
September 6, 2025
Autori: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
cs.AI
Abstract
Presentiamo Llama-GENBA-10B, un modello di base trilingue che affronta il bias centrato sull'inglese nei grandi modelli linguistici. Costruito su Llama 3.1-8B e scalato a 10 miliardi di parametri, Llama-GENBA-10B è stato pre-addestrato continuamente su 164 miliardi di token (82 miliardi in inglese, 82 miliardi in tedesco e 80 milioni in bavarese), bilanciando le risorse e prevenendo la dominanza dell'inglese. Rivolto alla comunità NLP tedesca, il modello promuove anche il bavarese come lingua a bassa risorsa. Lo sviluppo ha affrontato quattro sfide: (1) la creazione di un corpus multilingue nonostante la scarsità di dati in bavarese, (2) la creazione di un tokenizer unificato per inglese, tedesco e bavarese, (3) l'ottimizzazione dell'architettura e degli iperparametri del rapporto linguistico per il trasferimento cross-linguale, e (4) l'istituzione della prima suite di valutazione trilingue standardizzata traducendo benchmark tedeschi in bavarese. Le valutazioni mostrano che Llama-GENBA-10B raggiunge prestazioni cross-linguali solide, con la variante fine-tuned che supera Apertus-8B-2509 e gemma-2-9b in bavarese, affermandosi come il miglior modello nella sua classe per questa lingua, mentre supera anche EuroLLM in inglese e ne eguaglia i risultati in tedesco. L'addestramento su Cerebras CS-2 ha dimostrato un pre-addestramento multilingue su larga scala efficiente con un uso energetico documentato, offrendo un modello di riferimento per modelli di base inclusivi che integrano lingue a bassa risorsa.
English
We present Llama-GENBA-10B, a trilingual foundation model addressing
English-centric bias in large language models. Built on Llama 3.1-8B and scaled
to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens
(82B English, 82B German, and 80M Bavarian), balancing resources while
preventing English dominance. Targeted at the German NLP community, the model
also promotes Bavarian as a low-resource language. Development tackled four
challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2)
creating a unified tokenizer for English, German, and Bavarian, (3) optimizing
architecture and language-ratio hyperparameters for cross-lingual transfer, and
(4) establishing the first standardized trilingual evaluation suite by
translating German benchmarks into Bavarian. Evaluations show that
Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned
variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing
itself as the best model in its class for this language, while also
outperforming EuroLLM in English and matching its results in German. Training
on the Cerebras CS-2 demonstrated efficient large-scale multilingual
pretraining with documented energy use, offering a blueprint for inclusive
foundation models that integrate low-resource languages.