ChatPaper.aiChatPaper

Rapport technique du Bielik 11B v2

Bielik 11B v2 Technical Report

May 5, 2025
Auteurs: Krzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwoździej, Remigiusz Kinas
cs.AI

Résumé

Nous présentons Bielik 11B v2, un modèle de langage de pointe optimisé pour le traitement de texte en polonais. Basé sur l'architecture Mistral 7B v0.2 et mis à l'échelle à 11 milliards de paramètres grâce à une augmentation de la profondeur, ce modèle démontre des performances exceptionnelles sur les benchmarks de langue polonaise tout en conservant de solides capacités multilingues. Nous introduisons deux innovations techniques clés : la **Perte d'Entropie Croisée Pondérée par Instructions**, qui optimise l'apprentissage pour divers types d'instructions en attribuant des poids basés sur la qualité aux exemples d'entraînement, et le **Taux d'Apprentissage Adaptatif**, qui s'ajuste dynamiquement en fonction de la longueur du contexte. Une évaluation approfondie sur plusieurs benchmarks montre que Bielik 11B v2 surpasse de nombreux modèles plus grands, y compris ceux ayant 2 à 6 fois plus de paramètres, et dépasse significativement d'autres modèles spécialisés en langue polonaise sur des tâches allant de la compréhension linguistique au raisonnement complexe. L'efficacité en termes de paramètres du modèle et ses options de quantification étendues permettent un déploiement sur diverses configurations matérielles, faisant progresser les capacités de l'IA pour la langue polonaise et établissant de nouveaux standards pour la modélisation linguistique économe en ressources dans les langues moins représentées.
English
We present Bielik 11B v2, a state-of-the-art language model optimized for Polish text processing. Built on the Mistral 7B v0.2 architecture and scaled to 11B parameters using depth up-scaling, this model demonstrates exceptional performance across Polish language benchmarks while maintaining strong cross-lingual capabilities. We introduce two key technical innovations: Weighted Instruction Cross-Entropy Loss, which optimizes learning across diverse instruction types by assigning quality-based weights to training examples, and Adaptive Learning Rate, which dynamically adjusts based on context length. Comprehensive evaluation across multiple benchmarks demonstrates that Bielik 11B v2 outperforms many larger models, including those with 2-6 times more parameters, and significantly surpasses other specialized Polish language models on tasks ranging from linguistic understanding to complex reasoning. The model's parameter efficiency and extensive quantization options enable deployment across various hardware configurations, advancing Polish language AI capabilities and establishing new benchmarks for resource-efficient language modeling in less-represented languages.

Summary

AI-Generated Summary

PDF462May 12, 2025