Llama-GENBA-10B : Un modèle de langage multilingue de grande envergure pour l'allemand, l'anglais et le bavarois
Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
September 6, 2025
papers.authors: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
cs.AI
papers.abstract
Nous présentons Llama-GENBA-10B, un modèle de base trilingue visant à réduire le biais anglocentrique des grands modèles de langage. Construit sur Llama 3.1-8B et étendu à 10 milliards de paramètres, Llama-GENBA-10B a été pré-entraîné de manière continue sur 164 milliards de tokens (82 milliards en anglais, 82 milliards en allemand et 80 millions en bavarois), équilibrant les ressources tout en évitant la domination de l’anglais. Destiné à la communauté allemande du traitement automatique des langues (TAL), le modèle promeut également le bavarois en tant que langue à ressources limitées. Le développement a relevé quatre défis majeurs : (1) la constitution d’un corpus multilingue malgré la rareté des données en bavarois, (2) la création d’un tokenizer unifié pour l’anglais, l’allemand et le bavarois, (3) l’optimisation de l’architecture et des hyperparamètres de ratio linguistique pour le transfert translingue, et (4) l’établissement de la première suite d’évaluation trilingue standardisée en traduisant des benchmarks allemands en bavarois. Les évaluations montrent que Llama-GENBA-10B obtient des performances translingues solides, avec sa variante fine-tunée surpassant Apertus-8B-2509 et gemma-2-9b en bavarois et s’imposant comme le meilleur modèle de sa catégorie pour cette langue, tout en surpassant EuroLLM en anglais et en égalant ses résultats en allemand. L’entraînement sur le Cerebras CS-2 a démontré une efficacité dans le pré-entraînement multilingue à grande échelle avec une consommation énergétique documentée, offrant un modèle pour des modèles de base inclusifs intégrant des langues à ressources limitées.
English
We present Llama-GENBA-10B, a trilingual foundation model addressing
English-centric bias in large language models. Built on Llama 3.1-8B and scaled
to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens
(82B English, 82B German, and 80M Bavarian), balancing resources while
preventing English dominance. Targeted at the German NLP community, the model
also promotes Bavarian as a low-resource language. Development tackled four
challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2)
creating a unified tokenizer for English, German, and Bavarian, (3) optimizing
architecture and language-ratio hyperparameters for cross-lingual transfer, and
(4) establishing the first standardized trilingual evaluation suite by
translating German benchmarks into Bavarian. Evaluations show that
Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned
variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing
itself as the best model in its class for this language, while also
outperforming EuroLLM in English and matching its results in German. Training
on the Cerebras CS-2 demonstrated efficient large-scale multilingual
pretraining with documented energy use, offering a blueprint for inclusive
foundation models that integrate low-resource languages.