ChineseHarm-Bench: Een Benchmark voor de Detectie van Schadelijke Inhoud in het Chinees
ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark
June 12, 2025
Auteurs: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
cs.AI
Samenvatting
Grote taalmodellen (LLMs) worden steeds vaker toegepast op taken voor de automatische detectie van schadelijke inhoud, waarbij ze moderatoren helpen bij het identificeren van beleidsschendingen en de algehele efficiëntie en nauwkeurigheid van inhoudsbeoordeling verbeteren. Bestaande bronnen voor de detectie van schadelijke inhoud zijn echter voornamelijk gericht op Engels, terwijl Chinese datasets schaars blijven en vaak beperkt zijn in omvang. Wij presenteren een uitgebreide, professioneel geannoteerde benchmark voor de detectie van schadelijke inhoud in het Chinees, die zes representatieve categorieën omvat en volledig is opgebouwd uit real-world data. Ons annotatieproces levert verder een kennisregelbasis op die expliciete expertkennis biedt om LLMs te ondersteunen bij de detectie van schadelijke Chinese inhoud. Daarnaast stellen we een kennis-augmented baseline voor die zowel door mensen geannoteerde kennisregels als impliciete kennis van grote taalmodellen integreert, waardoor kleinere modellen prestaties kunnen bereiken die vergelijkbaar zijn met state-of-the-art LLMs. Code en data zijn beschikbaar op https://github.com/zjunlp/ChineseHarm-bench.
English
Large language models (LLMs) have been increasingly applied to automated
harmful content detection tasks, assisting moderators in identifying policy
violations and improving the overall efficiency and accuracy of content review.
However, existing resources for harmful content detection are predominantly
focused on English, with Chinese datasets remaining scarce and often limited in
scope. We present a comprehensive, professionally annotated benchmark for
Chinese content harm detection, which covers six representative categories and
is constructed entirely from real-world data. Our annotation process further
yields a knowledge rule base that provides explicit expert knowledge to assist
LLMs in Chinese harmful content detection. In addition, we propose a
knowledge-augmented baseline that integrates both human-annotated knowledge
rules and implicit knowledge from large language models, enabling smaller
models to achieve performance comparable to state-of-the-art LLMs. Code and
data are available at https://github.com/zjunlp/ChineseHarm-bench.