ChatPaper.aiChatPaper

Bielik v3 Small : Rapport Technique

Bielik v3 Small: Technical Report

May 5, 2025
Auteurs: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej
cs.AI

Résumé

Nous présentons Bielik v3, une série de modèles génératifs de texte à paramètres efficients (1,5B et 4,5B) optimisés pour le traitement de la langue polonaise. Ces modèles démontrent que des architectures plus petites mais bien optimisées peuvent atteindre des performances comparables à des modèles beaucoup plus grands tout en nécessitant nettement moins de ressources computationnelles. Notre approche intègre plusieurs innovations clés : un tokenizer polonais personnalisé (APT4) qui améliore significativement l'efficacité des tokens, une fonction de perte d'entropie croisée pondérée pour les instructions (Weighted Instruction Cross-Entropy Loss) afin d'équilibrer l'apprentissage entre les types d'instructions, et un taux d'apprentissage adaptatif (Adaptive Learning Rate) qui s'ajuste dynamiquement en fonction de l'avancement de l'entraînement. Entraînés sur un corpus méticuleusement sélectionné de 292 milliards de tokens couvrant 303 millions de documents, ces modèles excellent sur plusieurs benchmarks, notamment le Open PL LLM Leaderboard, le Complex Polish Text Understanding Benchmark, le Polish EQ-Bench et le Polish Medical Leaderboard. Le modèle à 4,5 milliards de paramètres obtient des résultats compétitifs par rapport à des modèles 2 à 3 fois plus grands, tandis que le modèle à 1,5 milliard de paramètres offre des performances solides malgré son profil extrêmement compact. Ces avancées établissent de nouveaux référentiels pour la modélisation linguistique à paramètres efficients dans les langues moins représentées, rendant l'IA de haute qualité en langue polonaise plus accessible pour les applications aux ressources limitées.
English
We introduce Bielik v3, a series of parameter-efficient generative text models (1.5B and 4.5B) optimized for Polish language processing. These models demonstrate that smaller, well-optimized architectures can achieve performance comparable to much larger counterparts while requiring substantially fewer computational resources. Our approach incorporates several key innovations: a custom Polish tokenizer (APT4) that significantly improves token efficiency, Weighted Instruction Cross-Entropy Loss to balance learning across instruction types, and Adaptive Learning Rate that dynamically adjusts based on training progress. Trained on a meticulously curated corpus of 292 billion tokens spanning 303 million documents, these models excel across multiple benchmarks, including the Open PL LLM Leaderboard, Complex Polish Text Understanding Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter model achieves results competitive with models 2-3 times its size, while the 1.5B model delivers strong performance despite its extremely compact profile. These advances establish new benchmarks for parameter-efficient language modeling in less-represented languages, making high-quality Polish language AI more accessible for resource-constrained applications.

Summary

AI-Generated Summary

PDF552May 12, 2025