ChineseHarm-Bench: Ein Benchmark für die Erkennung schädlicher Inhalte im Chinesischen

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend für automatisierte Aufgaben zur Erkennung schädlicher Inhalte eingesetzt, um Moderatoren bei der Identifizierung von Richtlinienverstößen zu unterstützen und die Gesamteffizienz und Genauigkeit der Inhaltsüberprüfung zu verbessern. Allerdings konzentrieren sich die bestehenden Ressourcen zur Erkennung schädlicher Inhalte überwiegend auf Englisch, während chinesische Datensätze nach wie vor rar und oft in ihrem Umfang begrenzt sind. Wir präsentieren einen umfassenden, professionell annotierten Benchmark für die Erkennung schädlicher Inhalte in chinesischer Sprache, der sechs repräsentative Kategorien abdeckt und vollständig aus realen Daten konstruiert wurde. Unser Annotationsprozess liefert darüber hinaus eine Wissensregelbasis, die explizites Expertenwissen bereitstellt, um LLMs bei der Erkennung schädlicher Inhalte in chinesischer Sprache zu unterstützen. Zusätzlich schlagen wir eine wissensbasierte Baseline vor, die sowohl von Menschen annotierte Wissensregeln als auch implizites Wissen aus großen Sprachmodellen integriert und es kleineren Modellen ermöglicht, eine Leistung zu erzielen, die mit der von state-of-the-art LLMs vergleichbar ist. Code und Daten sind unter https://github.com/zjunlp/ChineseHarm-bench verfügbar.

English

Large language models (LLMs) have been increasingly applied to automated harmful content detection tasks, assisting moderators in identifying policy violations and improving the overall efficiency and accuracy of content review. However, existing resources for harmful content detection are predominantly focused on English, with Chinese datasets remaining scarce and often limited in scope. We present a comprehensive, professionally annotated benchmark for Chinese content harm detection, which covers six representative categories and is constructed entirely from real-world data. Our annotation process further yields a knowledge rule base that provides explicit expert knowledge to assist LLMs in Chinese harmful content detection. In addition, we propose a knowledge-augmented baseline that integrates both human-annotated knowledge rules and implicit knowledge from large language models, enabling smaller models to achieve performance comparable to state-of-the-art LLMs. Code and data are available at https://github.com/zjunlp/ChineseHarm-bench.

ChineseHarm-Bench: Ein Benchmark für die Erkennung schädlicher Inhalte im Chinesischen

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

papers.abstract

Support