ChatPaper.aiChatPaper

Llama-GENBA-10B : Un modèle de langage multilingue de grande envergure pour l'allemand, l'anglais et le bavarois

Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian

September 6, 2025
papers.authors: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
cs.AI

papers.abstract

Nous présentons Llama-GENBA-10B, un modèle de base trilingue visant à réduire le biais anglocentrique des grands modèles de langage. Construit sur Llama 3.1-8B et étendu à 10 milliards de paramètres, Llama-GENBA-10B a été pré-entraîné de manière continue sur 164 milliards de tokens (82 milliards en anglais, 82 milliards en allemand et 80 millions en bavarois), équilibrant les ressources tout en évitant la domination de l’anglais. Destiné à la communauté allemande du traitement automatique des langues (TAL), le modèle promeut également le bavarois en tant que langue à ressources limitées. Le développement a relevé quatre défis majeurs : (1) la constitution d’un corpus multilingue malgré la rareté des données en bavarois, (2) la création d’un tokenizer unifié pour l’anglais, l’allemand et le bavarois, (3) l’optimisation de l’architecture et des hyperparamètres de ratio linguistique pour le transfert translingue, et (4) l’établissement de la première suite d’évaluation trilingue standardisée en traduisant des benchmarks allemands en bavarois. Les évaluations montrent que Llama-GENBA-10B obtient des performances translingues solides, avec sa variante fine-tunée surpassant Apertus-8B-2509 et gemma-2-9b en bavarois et s’imposant comme le meilleur modèle de sa catégorie pour cette langue, tout en surpassant EuroLLM en anglais et en égalant ses résultats en allemand. L’entraînement sur le Cerebras CS-2 a démontré une efficacité dans le pré-entraînement multilingue à grande échelle avec une consommation énergétique documentée, offrant un modèle pour des modèles de base inclusifs intégrant des langues à ressources limitées.
English
We present Llama-GENBA-10B, a trilingual foundation model addressing English-centric bias in large language models. Built on Llama 3.1-8B and scaled to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens (82B English, 82B German, and 80M Bavarian), balancing resources while preventing English dominance. Targeted at the German NLP community, the model also promotes Bavarian as a low-resource language. Development tackled four challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2) creating a unified tokenizer for English, German, and Bavarian, (3) optimizing architecture and language-ratio hyperparameters for cross-lingual transfer, and (4) establishing the first standardized trilingual evaluation suite by translating German benchmarks into Bavarian. Evaluations show that Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing itself as the best model in its class for this language, while also outperforming EuroLLM in English and matching its results in German. Training on the Cerebras CS-2 demonstrated efficient large-scale multilingual pretraining with documented energy use, offering a blueprint for inclusive foundation models that integrate low-resource languages.
PDF42September 9, 2025