Verbetering van Poolse Taalmodellering door Optimalisatie van Tokenizers in de Bielik v3 7B- en 11B-reeksen

Samenvatting

De ontwikkeling van de Bielik v3 PL-reeks, die zowel de 7B- als 11B-parametervarianten omvat, vertegenwoordigt een belangrijke mijlpaal op het gebied van taalspecifieke optimalisatie van grote taalmmodellen (Large Language Models, LLM's). Hoewel algemene modellen vaak indrukwekkende meertalige capaciteiten demonstreren, lijden ze vaak onder een fundamentele architectonische inefficiëntie: het gebruik van universele tokenizers. Deze tokenizers, die doorgaans zijn ontworpen om een breed spectrum van talen te dekken, slagen er vaak niet in de morfologische nuances van specifieke talen zoals het Pools vast te leggen. Dit leidt tot hogere *fertility*-ratio's, hogere inferentiekosten en een beperkt effectief contextvenster. Dit rapport beschrijft in detail de overgang van de op Mistral gebaseerde universele tokenisatie naar een speciaal voor het Pools geoptimaliseerde vocabulaire voor de Bielik v3-modellen. Hierbij wordt ingegaan op de FOCUS-gebaseerde initialisatie van embeddings, het meerfasen *pretraining*-curriculum, en de daaropvolgende *post-training*-afstemming, waaronder *Supervised Fine-Tuning*, *Direct Preference Optimization* en *Reinforcement Learning* via *Group Relative Policy Optimization* met verifieerbare beloningen.

English

The development of the Bielik v3 PL series, encompassing both the 7B and 11B parameter variants, represents a significant milestone in the field of language-specific large language model (LLM) optimization. While general-purpose models often demonstrate impressive multilingual capabilities, they frequently suffer from a fundamental architectural inefficiency: the use of universal tokenizers. These tokenizers, typically designed to cover a broad spectrum of languages, often fail to capture the morphological nuances of specific languages like Polish, leading to higher fertility ratios, increased inference costs, and restricted effective context windows. This report details the transition from the universal Mistral-based tokenization to a dedicated Polish-optimized vocabulary for the Bielik v3 models, exploring the FOCUS-based embedding initialization, the multi-stage pretraining curriculum, and the subsequent post-training alignment involving Supervised Fine-Tuning, Direct Preference Optimization, and Reinforcement Learning through Group Relative Policy Optimization with verifiable rewards.

Verbetering van Poolse Taalmodellering door Optimalisatie van Tokenizers in de Bielik v3 7B- en 11B-reeksen

Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

Samenvatting

Support