Bielik v3 Small: Technisch RapportBielik v3 Small: Technical Report
We introduceren Bielik v3, een reeks parameter-efficiënte generatieve tekstmodellen (1,5B en 4,5B) die zijn geoptimaliseerd voor de verwerking van de Poolse taal. Deze modellen laten zien dat kleinere, goed geoptimaliseerde architecturen prestaties kunnen bereiken die vergelijkbaar zijn met veel grotere tegenhangers, terwijl ze aanzienlijk minder rekenbronnen vereisen. Onze aanpak omvat verschillende belangrijke innovaties: een aangepaste Poolse tokenizer (APT4) die de token-efficiëntie aanzienlijk verbetert, Weighted Instruction Cross-Entropy Loss om het leren over verschillende instructietypen in balans te brengen, en een Adaptieve Leersnelheid die dynamisch wordt aangepast op basis van de trainingsvoortgang. Getraind op een zorgvuldig samengesteld corpus van 292 miljard tokens uit 303 miljoen documenten, presteren deze modellen uitstekend op meerdere benchmarks, waaronder de Open PL LLM Leaderboard, het Complex Polish Text Understanding Benchmark, de Poolse EQ-Bench en de Poolse Medical Leaderboard. Het 4,5B-parametermodel behaalt resultaten die concurrerend zijn met modellen die 2-3 keer zo groot zijn, terwijl het 1,5B-model sterke prestaties levert ondanks zijn extreem compacte profiel. Deze vooruitgang stelt nieuwe benchmarks voor parameter-efficiënte taalmodellering in minder vertegenwoordigde talen, waardoor hoogwaardige AI voor de Poolse taal toegankelijker wordt voor toepassingen met beperkte middelen.