Fortschritte in der polnischen Sprachmodellierung durch Tokenizer-Optimierung in der Bielik v3 7B- und 11B-Serie

Zusammenfassung

Die Entwicklung der Bielik-v3-PL-Serie, die sowohl die 7B- als auch die 11B-Parameter-Varianten umfasst, stellt einen bedeutenden Meilenstein auf dem Gebiet der sprachspezifischen Optimierung großer Sprachmodelle (Large Language Models, LLM) dar. Während allgemeine Modelle oft beeindruckende multilinguale Fähigkeiten demonstrieren, leiden sie häufig unter einer grundlegenden architektonischen Ineffizienz: der Verwendung universeller Tokenizer. Diese Tokenizer, die typischerweise für ein breites Spektrum an Sprachen ausgelegt sind, erfassen oft die morphologischen Nuancen spezifischer Sprachen wie Polnisch nicht ausreichend, was zu höheren Fertility Ratios, erhöhten Inferenzkosten und eingeschränkten effektiven Kontextfenstern führt. Dieser Bericht beschreibt detailliert den Übergang von der universellen, auf Mistral basierenden Tokenisierung zu einem speziell für Polnisch optimierten Vokabular für die Bielik-v3-Modelle. Dabei werden die FOCUS-basierte Embedding-Initialisierung, der mehrstufige Pre-Training-Lehrplan sowie die anschließende Post-Training-Alignment-Phase untersucht, die überwachte Feinabstimmung (Supervised Fine-Tuning), Direct Preference Optimization und Reinforcement Learning durch Group Relative Policy Optimization mit verifizierbaren Belohnungen umfasst.

English

The development of the Bielik v3 PL series, encompassing both the 7B and 11B parameter variants, represents a significant milestone in the field of language-specific large language model (LLM) optimization. While general-purpose models often demonstrate impressive multilingual capabilities, they frequently suffer from a fundamental architectural inefficiency: the use of universal tokenizers. These tokenizers, typically designed to cover a broad spectrum of languages, often fail to capture the morphological nuances of specific languages like Polish, leading to higher fertility ratios, increased inference costs, and restricted effective context windows. This report details the transition from the universal Mistral-based tokenization to a dedicated Polish-optimized vocabulary for the Bielik v3 models, exploring the FOCUS-based embedding initialization, the multi-stage pretraining curriculum, and the subsequent post-training alignment involving Supervised Fine-Tuning, Direct Preference Optimization, and Reinforcement Learning through Group Relative Policy Optimization with verifiable rewards.

Fortschritte in der polnischen Sprachmodellierung durch Tokenizer-Optimierung in der Bielik v3 7B- und 11B-Serie

Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

Zusammenfassung

Support