ChatPaper.aiChatPaper

Bielik v3 Small: Technisch Rapport

Bielik v3 Small: Technical Report

May 5, 2025
Auteurs: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej
cs.AI

Samenvatting

We introduceren Bielik v3, een reeks parameter-efficiënte generatieve tekstmodellen (1,5B en 4,5B) die zijn geoptimaliseerd voor de verwerking van de Poolse taal. Deze modellen laten zien dat kleinere, goed geoptimaliseerde architecturen prestaties kunnen bereiken die vergelijkbaar zijn met veel grotere tegenhangers, terwijl ze aanzienlijk minder rekenbronnen vereisen. Onze aanpak omvat verschillende belangrijke innovaties: een aangepaste Poolse tokenizer (APT4) die de token-efficiëntie aanzienlijk verbetert, Weighted Instruction Cross-Entropy Loss om het leren over verschillende instructietypen in balans te brengen, en een Adaptieve Leersnelheid die dynamisch wordt aangepast op basis van de trainingsvoortgang. Getraind op een zorgvuldig samengesteld corpus van 292 miljard tokens uit 303 miljoen documenten, presteren deze modellen uitstekend op meerdere benchmarks, waaronder de Open PL LLM Leaderboard, het Complex Polish Text Understanding Benchmark, de Poolse EQ-Bench en de Poolse Medical Leaderboard. Het 4,5B-parametermodel behaalt resultaten die concurrerend zijn met modellen die 2-3 keer zo groot zijn, terwijl het 1,5B-model sterke prestaties levert ondanks zijn extreem compacte profiel. Deze vooruitgang stelt nieuwe benchmarks voor parameter-efficiënte taalmodellering in minder vertegenwoordigde talen, waardoor hoogwaardige AI voor de Poolse taal toegankelijker wordt voor toepassingen met beperkte middelen.
English
We introduce Bielik v3, a series of parameter-efficient generative text models (1.5B and 4.5B) optimized for Polish language processing. These models demonstrate that smaller, well-optimized architectures can achieve performance comparable to much larger counterparts while requiring substantially fewer computational resources. Our approach incorporates several key innovations: a custom Polish tokenizer (APT4) that significantly improves token efficiency, Weighted Instruction Cross-Entropy Loss to balance learning across instruction types, and Adaptive Learning Rate that dynamically adjusts based on training progress. Trained on a meticulously curated corpus of 292 billion tokens spanning 303 million documents, these models excel across multiple benchmarks, including the Open PL LLM Leaderboard, Complex Polish Text Understanding Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter model achieves results competitive with models 2-3 times its size, while the 1.5B model delivers strong performance despite its extremely compact profile. These advances establish new benchmarks for parameter-efficient language modeling in less-represented languages, making high-quality Polish language AI more accessible for resource-constrained applications.
PDF663May 12, 2025