ChatPaper.aiChatPaper

Bielik Guard: Clasificadores de Seguridad Eficientes para el Idioma Polaco en la Moderación de Contenido de LLM

Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation

February 8, 2026
Autores: Krzysztof Wróbel, Jan Maria Kowalski, Jerzy Surma, Igor Ciuciura, Maciej Szymański
cs.AI

Resumen

A medida que los Modelos de Lenguaje a Gran Escala (LLM, por sus siglas en inglés) se despliegan cada vez más en aplicaciones en idioma polaco, la necesidad de clasificadores de seguridad de contenido eficientes y precisos se ha vuelto primordial. Presentamos Bielik Guard, una familia de clasificadores de seguridad compactos para el idioma polaco que comprende dos variantes de modelo: un modelo de 0.1B de parámetros basado en MMLW-RoBERTa-base y un modelo de 0.5B de parámetros basado en PKOBP/polish-roberta-8k. Fine-tuneados sobre un conjunto de datos anotado por la comunidad de 6,885 textos en polaco, estos modelos clasifican el contenido en cinco categorías de seguridad: Odio/Agresión, Vulgaridades, Contenido Sexual, Crimen y Autolesión. Nuestra evaluación demuestra que ambos modelos logran un rendimiento sólido en múltiples benchmarks. La variante de 0.5B ofrece la mejor capacidad de discriminación general con puntuaciones F1 de 0.791 (micro) y 0.785 (macro) en el conjunto de prueba, mientras que la variante de 0.1B demuestra una eficiencia excepcional. Cabe destacar que Bielik Guard 0.1B v1.1 logra una precisión superior (77.65%) y una tasa de falsos positivos muy baja (0.63%) en prompts de usuarios reales, superando a HerBERT-PL-Guard (31.55% de precisión, 4.70% TFP) a pesar de tener un tamaño de modelo idéntico. Los modelos están disponibles públicamente y están diseñados para proporcionar respuestas apropiadas en lugar de un simple bloqueo de contenido, particularmente para categorías sensibles como la autolesión.
English
As Large Language Models (LLMs) become increasingly deployed in Polish language applications, the need for efficient and accurate content safety classifiers has become paramount. We present Bielik Guard, a family of compact Polish language safety classifiers comprising two model variants: a 0.1B parameter model based on MMLW-RoBERTa-base and a 0.5B parameter model based on PKOBP/polish-roberta-8k. Fine-tuned on a community-annotated dataset of 6,885 Polish texts, these models classify content across five safety categories: Hate/Aggression, Vulgarities, Sexual Content, Crime, and Self-Harm. Our evaluation demonstrates that both models achieve strong performance on multiple benchmarks. The 0.5B variant offers the best overall discrimination capability with F1 scores of 0.791 (micro) and 0.785 (macro) on the test set, while the 0.1B variant demonstrates exceptional efficiency. Notably, Bielik Guard 0.1B v1.1 achieves superior precision (77.65%) and very low false positive rate (0.63%) on real user prompts, outperforming HerBERT-PL-Guard (31.55% precision, 4.70% FPR) despite identical model size. The models are publicly available and designed to provide appropriate responses rather than simple content blocking, particularly for sensitive categories like self-harm.
PDF41February 13, 2026