Rapport technique du Bielik 11B v2
Bielik 11B v2 Technical Report
May 5, 2025
Auteurs: Krzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas
cs.AI
Résumé
Nous présentons Bielik 11B v2, un modèle de langage de pointe optimisé pour le traitement de texte en polonais. Basé sur l'architecture Mistral 7B v0.2 et mis à l'échelle à 11 milliards de paramètres grâce à une augmentation de la profondeur, ce modèle démontre des performances exceptionnelles sur les benchmarks de langue polonaise tout en conservant de solides capacités multilingues. Nous introduisons deux innovations techniques clés : la **Perte d'Entropie Croisée Pondérée par Instructions**, qui optimise l'apprentissage pour divers types d'instructions en attribuant des poids basés sur la qualité aux exemples d'entraînement, et le **Taux d'Apprentissage Adaptatif**, qui s'ajuste dynamiquement en fonction de la longueur du contexte. Une évaluation approfondie sur plusieurs benchmarks montre que Bielik 11B v2 surpasse de nombreux modèles plus grands, y compris ceux ayant 2 à 6 fois plus de paramètres, et dépasse significativement d'autres modèles spécialisés en langue polonaise sur des tâches allant de la compréhension linguistique au raisonnement complexe. L'efficacité en termes de paramètres du modèle et ses options de quantification étendues permettent un déploiement sur diverses configurations matérielles, faisant progresser les capacités de l'IA pour la langue polonaise et établissant de nouveaux standards pour la modélisation linguistique économe en ressources dans les langues moins représentées.
English
We present Bielik 11B v2, a state-of-the-art language model optimized for
Polish text processing. Built on the Mistral 7B v0.2 architecture and scaled to
11B parameters using depth up-scaling, this model demonstrates exceptional
performance across Polish language benchmarks while maintaining strong
cross-lingual capabilities. We introduce two key technical innovations:
Weighted Instruction Cross-Entropy Loss, which optimizes learning across
diverse instruction types by assigning quality-based weights to training
examples, and Adaptive Learning Rate, which dynamically adjusts based on
context length. Comprehensive evaluation across multiple benchmarks
demonstrates that Bielik 11B v2 outperforms many larger models, including those
with 2-6 times more parameters, and significantly surpasses other specialized
Polish language models on tasks ranging from linguistic understanding to
complex reasoning. The model's parameter efficiency and extensive quantization
options enable deployment across various hardware configurations, advancing
Polish language AI capabilities and establishing new benchmarks for
resource-efficient language modeling in less-represented languages.Summary
AI-Generated Summary