Bielik v3 Small: Technisch Rapport
Bielik v3 Small: Technical Report
May 5, 2025
Auteurs: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej
cs.AI
Samenvatting
We introduceren Bielik v3, een reeks parameter-efficiënte generatieve tekstmodellen (1,5B en 4,5B) die zijn geoptimaliseerd voor de verwerking van de Poolse taal. Deze modellen laten zien dat kleinere, goed geoptimaliseerde architecturen prestaties kunnen bereiken die vergelijkbaar zijn met veel grotere tegenhangers, terwijl ze aanzienlijk minder rekenbronnen vereisen. Onze aanpak omvat verschillende belangrijke innovaties: een aangepaste Poolse tokenizer (APT4) die de token-efficiëntie aanzienlijk verbetert, Weighted Instruction Cross-Entropy Loss om het leren over verschillende instructietypen in balans te brengen, en een Adaptieve Leersnelheid die dynamisch wordt aangepast op basis van de trainingsvoortgang. Getraind op een zorgvuldig samengesteld corpus van 292 miljard tokens uit 303 miljoen documenten, presteren deze modellen uitstekend op meerdere benchmarks, waaronder de Open PL LLM Leaderboard, het Complex Polish Text Understanding Benchmark, de Poolse EQ-Bench en de Poolse Medical Leaderboard. Het 4,5B-parametermodel behaalt resultaten die concurrerend zijn met modellen die 2-3 keer zo groot zijn, terwijl het 1,5B-model sterke prestaties levert ondanks zijn extreem compacte profiel. Deze vooruitgang stelt nieuwe benchmarks voor parameter-efficiënte taalmodellering in minder vertegenwoordigde talen, waardoor hoogwaardige AI voor de Poolse taal toegankelijker wordt voor toepassingen met beperkte middelen.
English
We introduce Bielik v3, a series of parameter-efficient generative text
models (1.5B and 4.5B) optimized for Polish language processing. These models
demonstrate that smaller, well-optimized architectures can achieve performance
comparable to much larger counterparts while requiring substantially fewer
computational resources. Our approach incorporates several key innovations: a
custom Polish tokenizer (APT4) that significantly improves token efficiency,
Weighted Instruction Cross-Entropy Loss to balance learning across instruction
types, and Adaptive Learning Rate that dynamically adjusts based on training
progress. Trained on a meticulously curated corpus of 292 billion tokens
spanning 303 million documents, these models excel across multiple benchmarks,
including the Open PL LLM Leaderboard, Complex Polish Text Understanding
Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter
model achieves results competitive with models 2-3 times its size, while the
1.5B model delivers strong performance despite its extremely compact profile.
These advances establish new benchmarks for parameter-efficient language
modeling in less-represented languages, making high-quality Polish language AI
more accessible for resource-constrained applications.