ChatPaper.aiChatPaper

Bielik v3 Small: Технический отчет

Bielik v3 Small: Technical Report

May 5, 2025
Авторы: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej
cs.AI

Аннотация

Мы представляем Bielik v3 — серию параметрически эффективных генеративных текстовых моделей (1,5 млрд и 4,5 млрд параметров), оптимизированных для обработки польского языка. Эти модели демонстрируют, что меньшие, но хорошо оптимизированные архитектуры могут достигать производительности, сопоставимой с гораздо более крупными аналогами, при этом требуя значительно меньше вычислительных ресурсов. Наш подход включает несколько ключевых инноваций: специализированный токенизатор для польского языка (APT4), который значительно повышает эффективность токенизации, взвешенную функцию потерь на основе кросс-энтропии для инструкций (Weighted Instruction Cross-Entropy Loss), чтобы сбалансировать обучение для различных типов инструкций, и адаптивную скорость обучения (Adaptive Learning Rate), которая динамически корректируется в зависимости от прогресса обучения. Обучаясь на тщательно отобранном корпусе из 292 миллиардов токенов, охватывающем 303 миллиона документов, эти модели демонстрируют выдающиеся результаты на множестве тестов, включая Open PL LLM Leaderboard, Complex Polish Text Understanding Benchmark, Polish EQ-Bench и Polish Medical Leaderboard. Модель с 4,5 млрд параметров достигает результатов, конкурентоспособных с моделями в 2–3 раза большего размера, а модель с 1,5 млрд параметров показывает высокую производительность, несмотря на крайне компактный профиль. Эти достижения устанавливают новые стандарты для параметрически эффективного моделирования языка в менее представленных языках, делая высококачественный ИИ для польского языка более доступным для приложений с ограниченными ресурсами.
English
We introduce Bielik v3, a series of parameter-efficient generative text models (1.5B and 4.5B) optimized for Polish language processing. These models demonstrate that smaller, well-optimized architectures can achieve performance comparable to much larger counterparts while requiring substantially fewer computational resources. Our approach incorporates several key innovations: a custom Polish tokenizer (APT4) that significantly improves token efficiency, Weighted Instruction Cross-Entropy Loss to balance learning across instruction types, and Adaptive Learning Rate that dynamically adjusts based on training progress. Trained on a meticulously curated corpus of 292 billion tokens spanning 303 million documents, these models excel across multiple benchmarks, including the Open PL LLM Leaderboard, Complex Polish Text Understanding Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter model achieves results competitive with models 2-3 times its size, while the 1.5B model delivers strong performance despite its extremely compact profile. These advances establish new benchmarks for parameter-efficient language modeling in less-represented languages, making high-quality Polish language AI more accessible for resource-constrained applications.

Summary

AI-Generated Summary

PDF552May 12, 2025