ChatPaper.aiChatPaper

Bielik v3 Small: Rapporto Tecnico

Bielik v3 Small: Technical Report

May 5, 2025
Autori: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej
cs.AI

Abstract

Presentiamo Bielik v3, una serie di modelli generativi di testo efficienti in termini di parametri (1,5B e 4,5B) ottimizzati per l'elaborazione della lingua polacca. Questi modelli dimostrano che architetture più piccole e ben ottimizzate possono raggiungere prestazioni paragonabili a controparti molto più grandi, richiedendo sostanzialmente meno risorse computazionali. Il nostro approccio incorpora diverse innovazioni chiave: un tokenizer polacco personalizzato (APT4) che migliora significativamente l'efficienza dei token, la funzione di perdita Weighted Instruction Cross-Entropy Loss per bilanciare l'apprendimento tra i tipi di istruzione e un tasso di apprendimento adattivo che si regola dinamicamente in base ai progressi dell'addestramento. Addestrati su un corpus meticolosamente curato di 292 miliardi di token provenienti da 303 milioni di documenti, questi modelli eccellono in molteplici benchmark, tra cui l'Open PL LLM Leaderboard, il Complex Polish Text Understanding Benchmark, il Polish EQ-Bench e il Polish Medical Leaderboard. Il modello da 4,5 miliardi di parametri ottiene risultati competitivi con modelli 2-3 volte più grandi, mentre il modello da 1,5 miliardi offre prestazioni solide nonostante il suo profilo estremamente compatto. Questi progressi stabiliscono nuovi benchmark per la modellazione linguistica efficiente in termini di parametri per lingue meno rappresentate, rendendo l'IA di alta qualità per la lingua polacca più accessibile per applicazioni con risorse limitate.
English
We introduce Bielik v3, a series of parameter-efficient generative text models (1.5B and 4.5B) optimized for Polish language processing. These models demonstrate that smaller, well-optimized architectures can achieve performance comparable to much larger counterparts while requiring substantially fewer computational resources. Our approach incorporates several key innovations: a custom Polish tokenizer (APT4) that significantly improves token efficiency, Weighted Instruction Cross-Entropy Loss to balance learning across instruction types, and Adaptive Learning Rate that dynamically adjusts based on training progress. Trained on a meticulously curated corpus of 292 billion tokens spanning 303 million documents, these models excel across multiple benchmarks, including the Open PL LLM Leaderboard, Complex Polish Text Understanding Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter model achieves results competitive with models 2-3 times its size, while the 1.5B model delivers strong performance despite its extremely compact profile. These advances establish new benchmarks for parameter-efficient language modeling in less-represented languages, making high-quality Polish language AI more accessible for resource-constrained applications.
PDF683May 12, 2025