Bielik v3 소형: 기술 보고서
Bielik v3 Small: Technical Report
May 5, 2025
저자: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej
cs.AI
초록
Bielik v3를 소개합니다. 이는 폴란드어 처리에 최적화된 파라미터 효율적 생성 텍스트 모델 시리즈(1.5B 및 4.5B)입니다. 이 모델들은 더 작으면서도 잘 최적화된 아키텍처가 훨씬 더 큰 모델들과 비슷한 성능을 달성할 수 있음을 보여주며, 동시에 상당히 적은 계산 자원을 요구합니다. 우리의 접근 방식에는 몇 가지 주요 혁신이 포함됩니다: 토큰 효율성을 크게 향상시키는 맞춤형 폴란드어 토크나이저(APT4), 다양한 명령 유형 간 학습 균형을 맞추기 위한 가중치 명령 교차 엔트로피 손실(Weighted Instruction Cross-Entropy Loss), 그리고 학습 진행 상황에 따라 동적으로 조정되는 적응형 학습률(Adaptive Learning Rate) 등이 있습니다. 3억 300만 개의 문서에 걸쳐 2,920억 개의 토큰으로 구성된 신중하게 선별된 코퍼스로 학습된 이 모델들은 Open PL LLM 리더보드, 복잡한 폴란드어 텍스트 이해 벤치마크(Complex Polish Text Understanding Benchmark), 폴란드어 EQ-Bench, 폴란드어 의료 리더보드(Polish Medical Leaderboard) 등 여러 벤치마크에서 뛰어난 성능을 보입니다. 4.5B 파라미터 모델은 자신의 크기보다 2~3배 큰 모델들과 경쟁력 있는 결과를 달성하며, 1.5B 모델은 매우 컴팩트한 프로필에도 불구하고 강력한 성능을 제공합니다. 이러한 발전들은 덜 대표적인 언어들에 대한 파라미터 효율적 언어 모델링의 새로운 벤치마크를 설정하며, 자원이 제한된 애플리케이션에서도 고품질의 폴란드어 AI를 더욱 접근 가능하게 만듭니다.
English
We introduce Bielik v3, a series of parameter-efficient generative text
models (1.5B and 4.5B) optimized for Polish language processing. These models
demonstrate that smaller, well-optimized architectures can achieve performance
comparable to much larger counterparts while requiring substantially fewer
computational resources. Our approach incorporates several key innovations: a
custom Polish tokenizer (APT4) that significantly improves token efficiency,
Weighted Instruction Cross-Entropy Loss to balance learning across instruction
types, and Adaptive Learning Rate that dynamically adjusts based on training
progress. Trained on a meticulously curated corpus of 292 billion tokens
spanning 303 million documents, these models excel across multiple benchmarks,
including the Open PL LLM Leaderboard, Complex Polish Text Understanding
Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter
model achieves results competitive with models 2-3 times its size, while the
1.5B model delivers strong performance despite its extremely compact profile.
These advances establish new benchmarks for parameter-efficient language
modeling in less-represented languages, making high-quality Polish language AI
more accessible for resource-constrained applications.Summary
AI-Generated Summary