Bielik v3 소형: 기술 보고서Bielik v3 Small: Technical Report
Bielik v3를 소개합니다. 이는 폴란드어 처리에 최적화된 파라미터 효율적 생성 텍스트 모델 시리즈(1.5B 및 4.5B)입니다. 이 모델들은 더 작으면서도 잘 최적화된 아키텍처가 훨씬 더 큰 모델들과 비슷한 성능을 달성할 수 있음을 보여주며, 동시에 상당히 적은 계산 자원을 요구합니다. 우리의 접근 방식에는 몇 가지 주요 혁신이 포함됩니다: 토큰 효율성을 크게 향상시키는 맞춤형 폴란드어 토크나이저(APT4), 다양한 명령 유형 간 학습 균형을 맞추기 위한 가중치 명령 교차 엔트로피 손실(Weighted Instruction Cross-Entropy Loss), 그리고 학습 진행 상황에 따라 동적으로 조정되는 적응형 학습률(Adaptive Learning Rate) 등이 있습니다. 3억 300만 개의 문서에 걸쳐 2,920억 개의 토큰으로 구성된 신중하게 선별된 코퍼스로 학습된 이 모델들은 Open PL LLM 리더보드, 복잡한 폴란드어 텍스트 이해 벤치마크(Complex Polish Text Understanding Benchmark), 폴란드어 EQ-Bench, 폴란드어 의료 리더보드(Polish Medical Leaderboard) 등 여러 벤치마크에서 뛰어난 성능을 보입니다. 4.5B 파라미터 모델은 자신의 크기보다 2~3배 큰 모델들과 경쟁력 있는 결과를 달성하며, 1.5B 모델은 매우 컴팩트한 프로필에도 불구하고 강력한 성능을 제공합니다. 이러한 발전들은 덜 대표적인 언어들에 대한 파라미터 효율적 언어 모델링의 새로운 벤치마크를 설정하며, 자원이 제한된 애플리케이션에서도 고품질의 폴란드어 AI를 더욱 접근 가능하게 만듭니다.