Amélioration de la modélisation du langage polonais par l'optimisation du tokeniseur dans les séries Bielik v3 7B et 11B

Résumé

Le développement de la série Bielik v3 PL, comprenant les variantes à 7B et 11B de paramètres, représente une étape importante dans le domaine de l'optimisation des grands modèles de langage (LLM) spécifiques à une langue. Bien que les modèles généralistes affichent souvent des capacités multilingues impressionnantes, ils souffrent fréquemment d'une inefficacité architecturale fondamentale : l'utilisation de tokenizers universels. Ces tokenizers, généralement conçus pour couvrir un large spectre de langues, échouent souvent à capturer les nuances morphologiques de langues spécifiques comme le polonais, entraînant des ratios de fertilité plus élevés, des coûts d'inférence accrus et une réduction de la fenêtre de contexte effective. Ce rapport détaille la transition de la tokenisation universelle basée sur Mistral vers un vocabulaire dédié et optimisé pour le polonais pour les modèles Bielik v3, en explorant l'initialisation des embeddings basée sur FOCUS, le curriculum d'appréhension multi-étapes, et l'alignement post-entraînement subséquent incluant le Fine-Tuning Supervisé, l'Optimisation Directe des Préférences et l'Apprentissage par Renforcement via l'Optimisation de Politique Relative par Groupe avec récompenses vérifiables.

English

The development of the Bielik v3 PL series, encompassing both the 7B and 11B parameter variants, represents a significant milestone in the field of language-specific large language model (LLM) optimization. While general-purpose models often demonstrate impressive multilingual capabilities, they frequently suffer from a fundamental architectural inefficiency: the use of universal tokenizers. These tokenizers, typically designed to cover a broad spectrum of languages, often fail to capture the morphological nuances of specific languages like Polish, leading to higher fertility ratios, increased inference costs, and restricted effective context windows. This report details the transition from the universal Mistral-based tokenization to a dedicated Polish-optimized vocabulary for the Bielik v3 models, exploring the FOCUS-based embedding initialization, the multi-stage pretraining curriculum, and the subsequent post-training alignment involving Supervised Fine-Tuning, Direct Preference Optimization, and Reinforcement Learning through Group Relative Policy Optimization with verifiable rewards.

Amélioration de la modélisation du langage polonais par l'optimisation du tokeniseur dans les séries Bielik v3 7B et 11B

Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

Résumé

Support