ChatPaper.aiChatPaper

Llama-GENBA-10B: Un modelo de lenguaje grande trilingüe para alemán, inglés y bávaro

Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian

September 6, 2025
Autores: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
cs.AI

Resumen

Presentamos Llama-GENBA-10B, un modelo base trilingüe que aborda el sesgo centrado en el inglés en los modelos de lenguaje grandes. Construido sobre Llama 3.1-8B y escalado a 10 mil millones de parámetros, Llama-GENBA-10B se ha preentrenado continuamente con 164 mil millones de tokens (82 mil millones en inglés, 82 mil millones en alemán y 80 millones en bávaro), equilibrando los recursos mientras se previene el dominio del inglés. Dirigido a la comunidad de procesamiento de lenguaje natural (NLP) en alemán, el modelo también promueve el bávaro como un idioma de bajos recursos. El desarrollo abordó cuatro desafíos: (1) la curación de un corpus multilingüe a pesar de la escasez de datos en bávaro, (2) la creación de un tokenizador unificado para inglés, alemán y bávaro, (3) la optimización de la arquitectura y los hiperparámetros de proporción de idiomas para la transferencia cruzada de idiomas, y (4) el establecimiento de la primera suite de evaluación trilingüe estandarizada mediante la traducción de benchmarks alemanes al bávaro. Las evaluaciones muestran que Llama-GENBA-10B logra un fuerte rendimiento cruzado de idiomas, con la variante ajustada superando a Apertus-8B-2509 y gemma-2-9b en bávaro y posicionándose como el mejor modelo en su clase para este idioma, mientras también supera a EuroLLM en inglés y empata con sus resultados en alemán. El entrenamiento en el Cerebras CS-2 demostró un preentrenamiento multilingüe a gran escala eficiente con un uso de energía documentado, ofreciendo un modelo para la creación de modelos base inclusivos que integran idiomas de bajos recursos.
English
We present Llama-GENBA-10B, a trilingual foundation model addressing English-centric bias in large language models. Built on Llama 3.1-8B and scaled to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens (82B English, 82B German, and 80M Bavarian), balancing resources while preventing English dominance. Targeted at the German NLP community, the model also promotes Bavarian as a low-resource language. Development tackled four challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2) creating a unified tokenizer for English, German, and Bavarian, (3) optimizing architecture and language-ratio hyperparameters for cross-lingual transfer, and (4) establishing the first standardized trilingual evaluation suite by translating German benchmarks into Bavarian. Evaluations show that Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing itself as the best model in its class for this language, while also outperforming EuroLLM in English and matching its results in German. Training on the Cerebras CS-2 demonstrated efficient large-scale multilingual pretraining with documented energy use, offering a blueprint for inclusive foundation models that integrate low-resource languages.
PDF42September 9, 2025