Bielik v3 Small: Technischer BerichtBielik v3 Small: Technical Report
Wir stellen Bielik v3 vor, eine Reihe von parameter-effizienten generativen Textmodellen (1,5B und 4,5B), die für die Verarbeitung der polnischen Sprache optimiert sind. Diese Modelle zeigen, dass kleinere, gut optimierte Architekturen eine Leistung erzielen können, die mit viel größeren Modellen vergleichbar ist, während sie erheblich weniger Rechenressourcen benötigen. Unser Ansatz integriert mehrere Schlüsselinnovationen: einen maßgeschneiderten polnischen Tokenizer (APT4), der die Token-Effizienz deutlich verbessert, Weighted Instruction Cross-Entropy Loss, um das Lernen über verschiedene Instruktionstypen hinweg auszugleichen, und Adaptive Learning Rate, die sich dynamisch basierend auf dem Trainingsfortschritt anpasst. Trainiert auf einem sorgfältig kuratierten Korpus von 292 Milliarden Tokens, die sich über 303 Millionen Dokumente erstrecken, übertreffen diese Modelle in mehreren Benchmarks, darunter dem Open PL LLM Leaderboard, dem Complex Polish Text Understanding Benchmark, dem Polish EQ-Bench und dem Polish Medical Leaderboard. Das 4,5B-Parameter-Modell erzielt Ergebnisse, die mit Modellen konkurrieren, die zwei- bis dreimal so groß sind, während das 1,5B-Modell trotz seines äußerst kompakten Profils eine starke Leistung liefert. Diese Fortschritte setzen neue Maßstäbe für parameter-effizientes Sprachmodellieren in weniger repräsentierten Sprachen und machen hochwertige KI für die polnische Sprache für ressourcenbeschränkte Anwendungen zugänglicher.