Avanços na Modelagem de Língua Polonesa através da Otimização do Tokenizador nas Séries Bielik v3 7B e 11B

Resumo

O desenvolvimento da série Bielik v3 PL, que engloba as variantes de 7B e 11B de parâmetros, representa um marco significativo no campo da otimização de grandes modelos de linguagem (LLM) específicos para um idioma. Embora os modelos de propósito geral frequentemente demonstrem capacidades multilíngues impressionantes, eles sofrem com uma ineficiência arquitetônica fundamental: o uso de *tokenizers* universais. Esses *tokenizers*, normalmente projetados para cobrir um amplo espectro de idiomas, frequentemente falham em capturar as nuances morfológicas de línguas específicas, como o polonês, resultando em índices de fertilidade mais altos, custos de inferência aumentados e janelas de contexto efetivo restritas. Este relatório detalha a transição da tokenização universal baseada no Mistral para um vocabulário dedicado e otimizado para o polonês nos modelos Bielik v3, explorando a inicialização de *embeddings* baseada no FOCUS, o currículo de pré-treinamento em múltiplos estágios e o subsequente alinhamento pós-treinamento, envolvendo Ajuste Fino Supervisionado, Otimização Direta de Preferências e Aprendizado por Reforço por meio de Otimização de Política Relativa em Grupo com recompensas verificáveis.

English

The development of the Bielik v3 PL series, encompassing both the 7B and 11B parameter variants, represents a significant milestone in the field of language-specific large language model (LLM) optimization. While general-purpose models often demonstrate impressive multilingual capabilities, they frequently suffer from a fundamental architectural inefficiency: the use of universal tokenizers. These tokenizers, typically designed to cover a broad spectrum of languages, often fail to capture the morphological nuances of specific languages like Polish, leading to higher fertility ratios, increased inference costs, and restricted effective context windows. This report details the transition from the universal Mistral-based tokenization to a dedicated Polish-optimized vocabulary for the Bielik v3 models, exploring the FOCUS-based embedding initialization, the multi-stage pretraining curriculum, and the subsequent post-training alignment involving Supervised Fine-Tuning, Direct Preference Optimization, and Reinforcement Learning through Group Relative Policy Optimization with verifiable rewards.

Avanços na Modelagem de Língua Polonesa através da Otimização do Tokenizador nas Séries Bielik v3 7B e 11B

Advancing Polish Language Modeling through Tokenizer Optimization in the Bielik v3 7B and 11B Series

Resumo

Support