ChatPaper.aiChatPaper

Llama-GENBA-10B: Een drietalig groot taalmodel voor Duits, Engels en Beiers

Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian

September 6, 2025
Auteurs: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
cs.AI

Samenvatting

We presenteren Llama-GENBA-10B, een drietalig basis model dat de Engelse dominantie in grote taalmodellen aanpakt. Gebouwd op Llama 3.1-8B en opgeschaald naar 10B parameters, is Llama-GENBA-10B continu voorgetraind op 164B tokens (82B Engels, 82B Duits en 80M Beiers), waarbij de middelen in balans worden gehouden en Engelse dominantie wordt voorkomen. Gericht op de Duitse NLP-gemeenschap, bevordert het model ook het Beiers als een taal met beperkte bronnen. De ontwikkeling pakte vier uitdagingen aan: (1) het samenstellen van een meertalig corpus ondanks de schaarste van Beiers, (2) het creëren van een uniforme tokenizer voor Engels, Duits en Beiers, (3) het optimaliseren van de architectuur en taalratio hyperparameters voor cross-linguale overdracht, en (4) het opzetten van de eerste gestandaardiseerde drietalige evaluatiesuite door Duitse benchmarks naar het Beiers te vertalen. Evaluaties tonen aan dat Llama-GENBA-10B sterke cross-linguale prestaties behaalt, waarbij de fijn afgestelde variant Apertus-8B-2509 en gemma-2-9b in het Beiers overtreft en zichzelf vestigt als het beste model in zijn klasse voor deze taal, terwijl het ook EuroLLM in het Engels overtreft en de resultaten in het Duits evenaart. De training op de Cerebras CS-2 toonde efficiënte grootschalige meertalige voorpretraining aan met gedocumenteerd energiegebruik, en biedt een blauwdruk voor inclusieve basis modellen die talen met beperkte bronnen integreren.
English
We present Llama-GENBA-10B, a trilingual foundation model addressing English-centric bias in large language models. Built on Llama 3.1-8B and scaled to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens (82B English, 82B German, and 80M Bavarian), balancing resources while preventing English dominance. Targeted at the German NLP community, the model also promotes Bavarian as a low-resource language. Development tackled four challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2) creating a unified tokenizer for English, German, and Bavarian, (3) optimizing architecture and language-ratio hyperparameters for cross-lingual transfer, and (4) establishing the first standardized trilingual evaluation suite by translating German benchmarks into Bavarian. Evaluations show that Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing itself as the best model in its class for this language, while also outperforming EuroLLM in English and matching its results in German. Training on the Cerebras CS-2 demonstrated efficient large-scale multilingual pretraining with documented energy use, offering a blueprint for inclusive foundation models that integrate low-resource languages.
PDF52September 9, 2025