Bielik v3 Small: Technischer Bericht
Bielik v3 Small: Technical Report
May 5, 2025
Autoren: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej
cs.AI
Zusammenfassung
Wir stellen Bielik v3 vor, eine Reihe von parameter-effizienten generativen Textmodellen (1,5B und 4,5B), die für die Verarbeitung der polnischen Sprache optimiert sind. Diese Modelle zeigen, dass kleinere, gut optimierte Architekturen eine Leistung erzielen können, die mit viel größeren Modellen vergleichbar ist, während sie erheblich weniger Rechenressourcen benötigen. Unser Ansatz integriert mehrere Schlüsselinnovationen: einen maßgeschneiderten polnischen Tokenizer (APT4), der die Token-Effizienz deutlich verbessert, Weighted Instruction Cross-Entropy Loss, um das Lernen über verschiedene Instruktionstypen hinweg auszugleichen, und Adaptive Learning Rate, die sich dynamisch basierend auf dem Trainingsfortschritt anpasst. Trainiert auf einem sorgfältig kuratierten Korpus von 292 Milliarden Tokens, die sich über 303 Millionen Dokumente erstrecken, übertreffen diese Modelle in mehreren Benchmarks, darunter dem Open PL LLM Leaderboard, dem Complex Polish Text Understanding Benchmark, dem Polish EQ-Bench und dem Polish Medical Leaderboard. Das 4,5B-Parameter-Modell erzielt Ergebnisse, die mit Modellen konkurrieren, die zwei- bis dreimal so groß sind, während das 1,5B-Modell trotz seines äußerst kompakten Profils eine starke Leistung liefert. Diese Fortschritte setzen neue Maßstäbe für parameter-effizientes Sprachmodellieren in weniger repräsentierten Sprachen und machen hochwertige KI für die polnische Sprache für ressourcenbeschränkte Anwendungen zugänglicher.
English
We introduce Bielik v3, a series of parameter-efficient generative text
models (1.5B and 4.5B) optimized for Polish language processing. These models
demonstrate that smaller, well-optimized architectures can achieve performance
comparable to much larger counterparts while requiring substantially fewer
computational resources. Our approach incorporates several key innovations: a
custom Polish tokenizer (APT4) that significantly improves token efficiency,
Weighted Instruction Cross-Entropy Loss to balance learning across instruction
types, and Adaptive Learning Rate that dynamically adjusts based on training
progress. Trained on a meticulously curated corpus of 292 billion tokens
spanning 303 million documents, these models excel across multiple benchmarks,
including the Open PL LLM Leaderboard, Complex Polish Text Understanding
Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter
model achieves results competitive with models 2-3 times its size, while the
1.5B model delivers strong performance despite its extremely compact profile.
These advances establish new benchmarks for parameter-efficient language
modeling in less-represented languages, making high-quality Polish language AI
more accessible for resource-constrained applications.Summary
AI-Generated Summary