Bielik v3 Small: Relatório Técnico
Bielik v3 Small: Technical Report
May 5, 2025
Autores: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej
cs.AI
Resumo
Apresentamos o Bielik v3, uma série de modelos generativos de texto com eficiência de parâmetros (1,5B e 4,5B) otimizados para o processamento da língua polonesa. Esses modelos demonstram que arquiteturas menores e bem otimizadas podem alcançar desempenho comparável a modelos muito maiores, exigindo substancialmente menos recursos computacionais. Nossa abordagem incorpora várias inovações-chave: um tokenizador personalizado para o polonês (APT4) que melhora significativamente a eficiência de tokens, a Função de Perda de Entropia Cruzada com Instruções Ponderadas para equilibrar o aprendizado entre tipos de instruções, e uma Taxa de Aprendizado Adaptativa que se ajusta dinamicamente com base no progresso do treinamento. Treinados em um corpus meticulosamente curado de 292 bilhões de tokens, abrangendo 303 milhões de documentos, esses modelos se destacam em múltiplos benchmarks, incluindo o Open PL LLM Leaderboard, o Complex Polish Text Understanding Benchmark, o Polish EQ-Bench e o Polish Medical Leaderboard. O modelo de 4,5B parâmetros alcança resultados competitivos com modelos 2 a 3 vezes maiores, enquanto o modelo de 1,5B oferece um desempenho robusto apesar de seu perfil extremamente compacto. Esses avanços estabelecem novos padrões para a modelagem de linguagem com eficiência de parâmetros em idiomas menos representados, tornando a IA de alta qualidade para a língua polonesa mais acessível para aplicações com recursos limitados.
English
We introduce Bielik v3, a series of parameter-efficient generative text
models (1.5B and 4.5B) optimized for Polish language processing. These models
demonstrate that smaller, well-optimized architectures can achieve performance
comparable to much larger counterparts while requiring substantially fewer
computational resources. Our approach incorporates several key innovations: a
custom Polish tokenizer (APT4) that significantly improves token efficiency,
Weighted Instruction Cross-Entropy Loss to balance learning across instruction
types, and Adaptive Learning Rate that dynamically adjusts based on training
progress. Trained on a meticulously curated corpus of 292 billion tokens
spanning 303 million documents, these models excel across multiple benchmarks,
including the Open PL LLM Leaderboard, Complex Polish Text Understanding
Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter
model achieves results competitive with models 2-3 times its size, while the
1.5B model delivers strong performance despite its extremely compact profile.
These advances establish new benchmarks for parameter-efficient language
modeling in less-represented languages, making high-quality Polish language AI
more accessible for resource-constrained applications.