Bielik v3 Small:技術レポートBielik v3 Small: Technical Report
Bielik v3を紹介します。これは、ポーランド語処理に最適化されたパラメータ効率の高い生成テキストモデル(1.5Bおよび4.5B)のシリーズです。これらのモデルは、より小さくても最適化されたアーキテクチャが、大幅に少ない計算リソースで、はるかに大規模なモデルと同等の性能を達成できることを示しています。私たちのアプローチには、いくつかの重要な革新が含まれています:トークン効率を大幅に向上させるカスタムポーランド語トークナイザー(APT4)、指示タイプ間の学習バランスを取るための重み付き指示クロスエントロピー損失、そしてトレーニングの進捗に基づいて動的に調整する適応学習率です。303百万ドキュメントにわたる2920億トークンの慎重に選ばれたコーパスでトレーニングされたこれらのモデルは、Open PL LLMリーダーボード、複雑なポーランド語テキスト理解ベンチマーク、ポーランドEQ-Bench、ポーランド医療リーダーボードなど、複数のベンチマークで優れた性能を発揮します。4.5Bパラメータモデルは、そのサイズの2〜3倍のモデルと競合する結果を達成し、1.5Bモデルはその非常にコンパクトなプロファイルにもかかわらず強力な性能を提供します。これらの進歩により、十分に代表されていない言語におけるパラメータ効率の高い言語モデリングの新しいベンチマークが確立され、リソースに制約のあるアプリケーション向けに高品質なポーランド語AIがよりアクセスしやすくなりました。