ChineseHarm-Bench: Ein Benchmark für die Erkennung schädlicher Inhalte im Chinesischen
ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark
June 12, 2025
Autoren: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) werden zunehmend für automatisierte Aufgaben zur Erkennung schädlicher Inhalte eingesetzt, um Moderatoren bei der Identifizierung von Richtlinienverstößen zu unterstützen und die Gesamteffizienz und Genauigkeit der Inhaltsüberprüfung zu verbessern. Allerdings konzentrieren sich die bestehenden Ressourcen zur Erkennung schädlicher Inhalte überwiegend auf Englisch, während chinesische Datensätze nach wie vor rar und oft in ihrem Umfang begrenzt sind. Wir präsentieren einen umfassenden, professionell annotierten Benchmark für die Erkennung schädlicher Inhalte in chinesischer Sprache, der sechs repräsentative Kategorien abdeckt und vollständig aus realen Daten konstruiert wurde. Unser Annotationsprozess liefert darüber hinaus eine Wissensregelbasis, die explizites Expertenwissen bereitstellt, um LLMs bei der Erkennung schädlicher Inhalte in chinesischer Sprache zu unterstützen. Zusätzlich schlagen wir eine wissensbasierte Baseline vor, die sowohl von Menschen annotierte Wissensregeln als auch implizites Wissen aus großen Sprachmodellen integriert und es kleineren Modellen ermöglicht, eine Leistung zu erzielen, die mit der von state-of-the-art LLMs vergleichbar ist. Code und Daten sind unter https://github.com/zjunlp/ChineseHarm-bench verfügbar.
English
Large language models (LLMs) have been increasingly applied to automated
harmful content detection tasks, assisting moderators in identifying policy
violations and improving the overall efficiency and accuracy of content review.
However, existing resources for harmful content detection are predominantly
focused on English, with Chinese datasets remaining scarce and often limited in
scope. We present a comprehensive, professionally annotated benchmark for
Chinese content harm detection, which covers six representative categories and
is constructed entirely from real-world data. Our annotation process further
yields a knowledge rule base that provides explicit expert knowledge to assist
LLMs in Chinese harmful content detection. In addition, we propose a
knowledge-augmented baseline that integrates both human-annotated knowledge
rules and implicit knowledge from large language models, enabling smaller
models to achieve performance comparable to state-of-the-art LLMs. Code and
data are available at https://github.com/zjunlp/ChineseHarm-bench.