Llama-GENBA-10B: Трехъязычная большая языковая модель для немецкого, английского и баварского языков
Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
September 6, 2025
Авторы: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
cs.AI
Аннотация
Мы представляем Llama-GENBA-10B, трехъязычную базовую модель, направленную на устранение англоцентричной предвзятости в крупных языковых моделях. Построенная на основе Llama 3.1-8B и масштабированная до 10 миллиардов параметров, Llama-GENBA-10B прошла непрерывное предварительное обучение на 164 миллиардах токенов (82 миллиарда английских, 82 миллиарда немецких и 80 миллионов баварских), что позволяет сбалансировать ресурсы и избежать доминирования английского языка. Модель ориентирована на немецкое сообщество NLP и также способствует развитию баварского языка как языка с ограниченными ресурсами. В процессе разработки были решены четыре ключевые задачи: (1) создание многоязычного корпуса, несмотря на ограниченность данных по баварскому языку, (2) разработка унифицированного токенизатора для английского, немецкого и баварского языков, (3) оптимизация архитектуры и гиперпараметров соотношения языков для кросс-лингвистического переноса и (4) создание первой стандартизированной трехъязычной системы оценки путем перевода немецких тестовых наборов на баварский язык. Оценки показывают, что Llama-GENBA-10B демонстрирует высокую кросс-лингвистическую производительность: доработанная версия модели превосходит Apertus-8B-2509 и gemma-2-9b в баварском языке, становясь лучшей моделью в своем классе для этого языка, а также опережает EuroLLM в английском и соответствует его результатам в немецком. Обучение на Cerebras CS-2 продемонстрировало эффективное крупномасштабное многоязычное предварительное обучение с документированным энергопотреблением, предлагая шаблон для инклюзивных базовых моделей, интегрирующих языки с ограниченными ресурсами.
English
We present Llama-GENBA-10B, a trilingual foundation model addressing
English-centric bias in large language models. Built on Llama 3.1-8B and scaled
to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens
(82B English, 82B German, and 80M Bavarian), balancing resources while
preventing English dominance. Targeted at the German NLP community, the model
also promotes Bavarian as a low-resource language. Development tackled four
challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2)
creating a unified tokenizer for English, German, and Bavarian, (3) optimizing
architecture and language-ratio hyperparameters for cross-lingual transfer, and
(4) establishing the first standardized trilingual evaluation suite by
translating German benchmarks into Bavarian. Evaluations show that
Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned
variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing
itself as the best model in its class for this language, while also
outperforming EuroLLM in English and matching its results in German. Training
on the Cerebras CS-2 demonstrated efficient large-scale multilingual
pretraining with documented energy use, offering a blueprint for inclusive
foundation models that integrate low-resource languages.