Bielik v3 Pequeño: Informe Técnico
Bielik v3 Small: Technical Report
May 5, 2025
Autores: Krzysztof Ociepa, Łukasz Flis, Remigiusz Kinas, Krzysztof Wróbel, Adrian Gwoździej
cs.AI
Resumen
Presentamos Bielik v3, una serie de modelos generativos de texto eficientes en parámetros (1.5B y 4.5B) optimizados para el procesamiento del idioma polaco. Estos modelos demuestran que arquitecturas más pequeñas pero bien optimizadas pueden alcanzar un rendimiento comparable al de modelos mucho más grandes, requiriendo sustancialmente menos recursos computacionales. Nuestro enfoque incorpora varias innovaciones clave: un tokenizador personalizado para polaco (APT4) que mejora significativamente la eficiencia de los tokens, una función de pérdida de entropía cruzada ponderada por instrucciones (Weighted Instruction Cross-Entropy Loss) para equilibrar el aprendizaje entre tipos de instrucciones, y una tasa de aprendizaje adaptativa (Adaptive Learning Rate) que se ajusta dinámicamente según el progreso del entrenamiento. Entrenados en un corpus meticulosamente curado de 292 mil millones de tokens que abarcan 303 millones de documentos, estos modelos destacan en múltiples benchmarks, incluyendo el Open PL LLM Leaderboard, el Benchmark de Comprensión de Texto Complejo en Polaco, el Polish EQ-Bench y el Polish Medical Leaderboard. El modelo de 4.5B parámetros logra resultados competitivos con modelos 2-3 veces más grandes, mientras que el modelo de 1.5B ofrece un rendimiento sólido a pesar de su perfil extremadamente compacto. Estos avances establecen nuevos referentes en el modelado de lenguaje eficiente en parámetros para idiomas menos representados, haciendo que la IA de alta calidad en polaco sea más accesible para aplicaciones con recursos limitados.
English
We introduce Bielik v3, a series of parameter-efficient generative text
models (1.5B and 4.5B) optimized for Polish language processing. These models
demonstrate that smaller, well-optimized architectures can achieve performance
comparable to much larger counterparts while requiring substantially fewer
computational resources. Our approach incorporates several key innovations: a
custom Polish tokenizer (APT4) that significantly improves token efficiency,
Weighted Instruction Cross-Entropy Loss to balance learning across instruction
types, and Adaptive Learning Rate that dynamically adjusts based on training
progress. Trained on a meticulously curated corpus of 292 billion tokens
spanning 303 million documents, these models excel across multiple benchmarks,
including the Open PL LLM Leaderboard, Complex Polish Text Understanding
Benchmark, Polish EQ-Bench, and Polish Medical Leaderboard. The 4.5B parameter
model achieves results competitive with models 2-3 times its size, while the
1.5B model delivers strong performance despite its extremely compact profile.
These advances establish new benchmarks for parameter-efficient language
modeling in less-represented languages, making high-quality Polish language AI
more accessible for resource-constrained applications.Summary
AI-Generated Summary