Llama-GENBA-10B: 독일어, 영어, 바이에른어를 위한 삼국어 대규모 언어 모델
Llama-GENBA-10B: A Trilingual Large Language Model for German, English and Bavarian
September 6, 2025
저자: Michael Hoffmann, Jophin John, Stefan Schweter, Gokul Ramakrishnan, Hoi-Fong Mak, Alice Zhang, Dmitry Gaynullin, Nicolay J. Hammer
cs.AI
초록
영어 중심 편향성을 해결하기 위한 삼중언어 기반 모델인 Llama-GENBA-10B를 소개합니다. Llama 3.1-8B를 기반으로 구축되고 100억 개의 파라미터로 확장된 Llama-GENBA-10B는 1,640억 개의 토큰(영어 820억, 독일어 820억, 바이에른어 8천만)을 지속적으로 사전 학습하여 자원을 균형 있게 분배하면서 영어의 지배를 방지합니다. 독일 NLP 커뮤니티를 대상으로 한 이 모델은 저자원 언어인 바이에른어를 촉진하는 역할도 합니다. 개발 과정에서는 네 가지 과제를 해결했습니다: (1) 바이에른어 자료의 부족에도 불구하고 다국어 코퍼스를 구축, (2) 영어, 독일어, 바이에른어를 위한 통합 토크나이저 생성, (3) 교차 언어 전이를 위한 아키텍처 및 언어 비율 하이퍼파라미터 최적화, (4) 독일어 벤치마크를 바이에른어로 번역하여 최초의 표준화된 삼중언어 평가 스위트를 구축. 평가 결과, Llama-GENBA-10B는 강력한 교차 언어 성능을 보여주며, 미세 조정된 버전은 바이에른어에서 Apertus-8B-2509와 gemma-2-9b를 능가하고 이 언어 분야에서 최고의 모델로 자리 잡았습니다. 또한 영어에서는 EuroLLM을 능가하고 독일어에서는 동등한 결과를 보였습니다. Cerebras CS-2에서의 학습은 문서화된 에너지 사용과 함께 대규모 다국어 사전 학습의 효율성을 입증하며, 저자원 언어를 통합하는 포용적인 기반 모델을 위한 청사진을 제공합니다.
English
We present Llama-GENBA-10B, a trilingual foundation model addressing
English-centric bias in large language models. Built on Llama 3.1-8B and scaled
to 10B parameters, Llama-GENBA-10B is continuously pretrained on 164B tokens
(82B English, 82B German, and 80M Bavarian), balancing resources while
preventing English dominance. Targeted at the German NLP community, the model
also promotes Bavarian as a low-resource language. Development tackled four
challenges: (1) curating a multilingual corpus despite Bavarian scarcity, (2)
creating a unified tokenizer for English, German, and Bavarian, (3) optimizing
architecture and language-ratio hyperparameters for cross-lingual transfer, and
(4) establishing the first standardized trilingual evaluation suite by
translating German benchmarks into Bavarian. Evaluations show that
Llama-GENBA-10B achieves strong cross-lingual performance, with the fine-tuned
variant surpassing Apertus-8B-2509 and gemma-2-9b in Bavarian and establishing
itself as the best model in its class for this language, while also
outperforming EuroLLM in English and matching its results in German. Training
on the Cerebras CS-2 demonstrated efficient large-scale multilingual
pretraining with documented energy use, offering a blueprint for inclusive
foundation models that integrate low-resource languages.