ChineseHarm-Bench: Een Benchmark voor de Detectie van Schadelijke Inhoud in het Chinees

Samenvatting

Grote taalmodellen (LLMs) worden steeds vaker toegepast op taken voor de automatische detectie van schadelijke inhoud, waarbij ze moderatoren helpen bij het identificeren van beleidsschendingen en de algehele efficiëntie en nauwkeurigheid van inhoudsbeoordeling verbeteren. Bestaande bronnen voor de detectie van schadelijke inhoud zijn echter voornamelijk gericht op Engels, terwijl Chinese datasets schaars blijven en vaak beperkt zijn in omvang. Wij presenteren een uitgebreide, professioneel geannoteerde benchmark voor de detectie van schadelijke inhoud in het Chinees, die zes representatieve categorieën omvat en volledig is opgebouwd uit real-world data. Ons annotatieproces levert verder een kennisregelbasis op die expliciete expertkennis biedt om LLMs te ondersteunen bij de detectie van schadelijke Chinese inhoud. Daarnaast stellen we een kennis-augmented baseline voor die zowel door mensen geannoteerde kennisregels als impliciete kennis van grote taalmodellen integreert, waardoor kleinere modellen prestaties kunnen bereiken die vergelijkbaar zijn met state-of-the-art LLMs. Code en data zijn beschikbaar op https://github.com/zjunlp/ChineseHarm-bench.

English

Large language models (LLMs) have been increasingly applied to automated harmful content detection tasks, assisting moderators in identifying policy violations and improving the overall efficiency and accuracy of content review. However, existing resources for harmful content detection are predominantly focused on English, with Chinese datasets remaining scarce and often limited in scope. We present a comprehensive, professionally annotated benchmark for Chinese content harm detection, which covers six representative categories and is constructed entirely from real-world data. Our annotation process further yields a knowledge rule base that provides explicit expert knowledge to assist LLMs in Chinese harmful content detection. In addition, we propose a knowledge-augmented baseline that integrates both human-annotated knowledge rules and implicit knowledge from large language models, enabling smaller models to achieve performance comparable to state-of-the-art LLMs. Code and data are available at https://github.com/zjunlp/ChineseHarm-bench.

ChineseHarm-Bench: Een Benchmark voor de Detectie van Schadelijke Inhoud in het Chinees

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

Samenvatting

Support