ChatPaper.aiChatPaper

Bielik Guard: LLM 콘텐츠 관리를 위한 효율적인 폴란드어 안전성 분류기

Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation

February 8, 2026
저자: Krzysztof Wróbel, Jan Maria Kowalski, Jerzy Surma, Igor Ciuciura, Maciej Szymański
cs.AI

초록

대규모 언어 모델(LLM)이 폴란드어 애플리케이션에 점점 더 많이 배포됨에 따라, 효율적이고 정확한 콘텐츠 안전 분류기의 필요성이 매우 중요해졌습니다. 본 논문에서는 두 가지 모델 변종(0.1B 매개변수 MMLW-RoBERTa-base 기반 모델과 0.5B 매개변수 PKOBP/polish-roberta-8k 기반 모델)으로 구성된 소형 폴란드어 안전 분류기 패밀리인 Bielik Guard를 소개합니다. 커뮤니티에서 주석을 단 6,885개의 폴란드어 텍스트 데이터셋으로 미세 조정된 이 모델들은 콘텐츠를 증오/공격성, 비속어, 성적 콘텐츠, 범죄, 자해의 다섯 가지 안전 범주로 분류합니다. 평가 결과, 두 모델 모두 여러 벤치마크에서 강력한 성능을 달성한 것으로 나타났습니다. 0.5B 변종은 테스트 세트에서 F1 점수 0.791(micro) 및 0.785(macro)로 최고의 전반적 판별 능력을 제공하는 반면, 0.1B 변종은 탁월한 효율성을 보여줍니다. 특히 Bielik Guard 0.1B v1.1은 실제 사용자 프롬프트에서 우수한 정밀도(77.65%)와 매우 낮은 거짓 양성 비율(0.63%)을 달성하여 동일한 모델 크기의 HerBERT-PL-Guard(정밀도 31.55%, FPR 4.70%)를 능가합니다. 해당 모델들은 공개되어 있으며, 특히 자해와 같은 민감한 범주에 대해 단순한 콘텐츠 차단이 아닌 적절한 응답을 제공하도록 설계되었습니다.
English
As Large Language Models (LLMs) become increasingly deployed in Polish language applications, the need for efficient and accurate content safety classifiers has become paramount. We present Bielik Guard, a family of compact Polish language safety classifiers comprising two model variants: a 0.1B parameter model based on MMLW-RoBERTa-base and a 0.5B parameter model based on PKOBP/polish-roberta-8k. Fine-tuned on a community-annotated dataset of 6,885 Polish texts, these models classify content across five safety categories: Hate/Aggression, Vulgarities, Sexual Content, Crime, and Self-Harm. Our evaluation demonstrates that both models achieve strong performance on multiple benchmarks. The 0.5B variant offers the best overall discrimination capability with F1 scores of 0.791 (micro) and 0.785 (macro) on the test set, while the 0.1B variant demonstrates exceptional efficiency. Notably, Bielik Guard 0.1B v1.1 achieves superior precision (77.65%) and very low false positive rate (0.63%) on real user prompts, outperforming HerBERT-PL-Guard (31.55% precision, 4.70% FPR) despite identical model size. The models are publicly available and designed to provide appropriate responses rather than simple content blocking, particularly for sensitive categories like self-harm.
PDF41February 13, 2026