ChatPaper.aiChatPaper

ChineseHarm-Bench : Un benchmark pour la détection de contenus nuisibles en chinois

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

June 12, 2025
Auteurs: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
cs.AI

Résumé

Les grands modèles de langage (LLMs) sont de plus en plus utilisés pour les tâches de détection automatisée de contenus nuisibles, aidant les modérateurs à identifier les violations des politiques et à améliorer l'efficacité et la précision globales de la modération des contenus. Cependant, les ressources existantes pour la détection de contenus nuisibles se concentrent principalement sur l'anglais, les ensembles de données en chinois restant rares et souvent limités en portée. Nous présentons un benchmark complet et professionnellement annoté pour la détection de contenus nuisibles en chinois, couvrant six catégories représentatives et construit entièrement à partir de données réelles. Notre processus d'annotation produit en outre une base de règles de connaissances qui fournit des connaissances expertes explicites pour aider les LLMs dans la détection de contenus nuisibles en chinois. De plus, nous proposons une ligne de base enrichie par les connaissances qui intègre à la fois les règles de connaissances annotées par des humains et les connaissances implicites des grands modèles de langage, permettant aux modèles plus petits d'atteindre des performances comparables à celles des LLMs de pointe. Le code et les données sont disponibles à l'adresse suivante : https://github.com/zjunlp/ChineseHarm-bench.
English
Large language models (LLMs) have been increasingly applied to automated harmful content detection tasks, assisting moderators in identifying policy violations and improving the overall efficiency and accuracy of content review. However, existing resources for harmful content detection are predominantly focused on English, with Chinese datasets remaining scarce and often limited in scope. We present a comprehensive, professionally annotated benchmark for Chinese content harm detection, which covers six representative categories and is constructed entirely from real-world data. Our annotation process further yields a knowledge rule base that provides explicit expert knowledge to assist LLMs in Chinese harmful content detection. In addition, we propose a knowledge-augmented baseline that integrates both human-annotated knowledge rules and implicit knowledge from large language models, enabling smaller models to achieve performance comparable to state-of-the-art LLMs. Code and data are available at https://github.com/zjunlp/ChineseHarm-bench.
PDF92June 13, 2025