ChineseHarm-Bench: Un Benchmark per il Rilevamento di Contenuti Dannosi in Cinese
ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark
June 12, 2025
Autori: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono stati sempre più applicati ai compiti di rilevamento automatico di contenuti dannosi, assistendo i moderatori nell'identificazione di violazioni delle politiche e migliorando l'efficienza e l'accuratezza complessive della revisione dei contenuti. Tuttavia, le risorse esistenti per il rilevamento di contenuti dannosi sono prevalentemente focalizzate sull'inglese, con i dataset in cinese che rimangono scarsi e spesso limitati nell'ambito. Presentiamo un benchmark completo e professionalmente annotato per il rilevamento di contenuti dannosi in cinese, che copre sei categorie rappresentative ed è interamente costruito da dati del mondo reale. Il nostro processo di annotazione produce inoltre una base di regole di conoscenza che fornisce conoscenze esplicite di esperti per assistere gli LLM nel rilevamento di contenuti dannosi in cinese. Inoltre, proponiamo una baseline potenziata dalla conoscenza che integra sia regole di conoscenza annotate da esseri umani sia conoscenze implicite provenienti da modelli linguistici di grandi dimensioni, consentendo a modelli più piccoli di raggiungere prestazioni paragonabili a quelle degli LLM all'avanguardia. Il codice e i dati sono disponibili all'indirizzo https://github.com/zjunlp/ChineseHarm-bench.
English
Large language models (LLMs) have been increasingly applied to automated
harmful content detection tasks, assisting moderators in identifying policy
violations and improving the overall efficiency and accuracy of content review.
However, existing resources for harmful content detection are predominantly
focused on English, with Chinese datasets remaining scarce and often limited in
scope. We present a comprehensive, professionally annotated benchmark for
Chinese content harm detection, which covers six representative categories and
is constructed entirely from real-world data. Our annotation process further
yields a knowledge rule base that provides explicit expert knowledge to assist
LLMs in Chinese harmful content detection. In addition, we propose a
knowledge-augmented baseline that integrates both human-annotated knowledge
rules and implicit knowledge from large language models, enabling smaller
models to achieve performance comparable to state-of-the-art LLMs. Code and
data are available at https://github.com/zjunlp/ChineseHarm-bench.