Llama-GENBA-10B: Um Modelo de Linguagem de Grande Escala Trilíngue para Alemão, Inglês e Bávaro
Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
September 6, 2025
Autores: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
cs.AI
Resumo
Apresentamos o Llama-GENBA-10B, um modelo de base trilíngue que aborda o viés centrado no inglês em modelos de linguagem de grande escala. Construído sobre o Llama 3.1-8B e escalonado para 10 bilhões de parâmetros, o Llama-GENBA-10B foi continuamente pré-treinado em 164 bilhões de tokens (82 bilhões em inglês, 82 bilhões em alemão e 80 milhões em bávaro), equilibrando recursos enquanto evitava a dominância do inglês. Voltado para a comunidade de PLN alemã, o modelo também promove o bávaro como uma língua de baixo recurso. O desenvolvimento enfrentou quatro desafios: (1) curadoria de um corpus multilíngue apesar da escassez de dados em bávaro, (2) criação de um tokenizador unificado para inglês, alemão e bávaro, (3) otimização da arquitetura e dos hiperparâmetros de proporção de idiomas para transferência cross-lingual, e (4) estabelecimento do primeiro conjunto de avaliação trilíngue padronizado, traduzindo benchmarks alemães para o bávaro. As avaliações mostram que o Llama-GENBA-10B alcança um forte desempenho cross-lingual, com a variante fine-tuned superando o Apertus-8B-2509 e o gemma-2-9b em bávaro e se estabelecendo como o melhor modelo em sua classe para esse idioma, ao mesmo tempo que supera o EuroLLM em inglês e iguala seus resultados em alemão. O treinamento no Cerebras CS-2 demonstrou um pré-treinamento multilíngue em grande escala eficiente, com uso de energia documentado, oferecendo um modelo para a criação de modelos de base inclusivos que integram línguas de baixo recurso.
English
We present Llama-GENBA-10B, a trilingual foundation model addressing
English-centric bias in large language models. Built on Llama 3.1-8B and scaled
to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens
(82B English, 82B German, and 80M Bavarian), balancing resources while
preventing English dominance. Targeted at the German NLP community, the model
also promotes Bavarian as a low-resource language. Development tackled four
challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2)
creating a unified tokenizer for English, German, and Bavarian, (3) optimizing
architecture and language-ratio hyperparameters for cross-lingual transfer, and
(4) establishing the first standardized trilingual evaluation suite by
translating German benchmarks into Bavarian. Evaluations show that
Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned
variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing
itself as the best model in its class for this language, while also
outperforming EuroLLM in English and matching its results in German. Training
on the Cerebras CS-2 demonstrated efficient large-scale multilingual
pretraining with documented energy use, offering a blueprint for inclusive
foundation models that integrate low-resource languages.