ChineseHarm-Bench: Um Benchmark para Detecção de Conteúdo Nocivo em Chinês
ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark
June 12, 2025
Autores: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) têm sido cada vez mais aplicados a tarefas automatizadas de detecção de conteúdo nocivo, auxiliando moderadores na identificação de violações de políticas e melhorando a eficiência e precisão geral da revisão de conteúdo. No entanto, os recursos existentes para detecção de conteúdo nocivo são predominantemente focados no inglês, com conjuntos de dados em chinês permanecendo escassos e frequentemente limitados em escopo. Apresentamos um benchmark abrangente e profissionalmente anotado para detecção de conteúdo nocivo em chinês, que cobre seis categorias representativas e é construído inteiramente a partir de dados do mundo real. Nosso processo de anotação ainda gera uma base de regras de conhecimento que fornece conhecimento explícito de especialistas para auxiliar LLMs na detecção de conteúdo nocivo em chinês. Além disso, propomos uma linha de base aumentada por conhecimento que integra tanto regras de conhecimento anotadas por humanos quanto conhecimento implícito de modelos de linguagem de grande escala, permitindo que modelos menores alcancem desempenho comparável aos LLMs de última geração. Código e dados estão disponíveis em https://github.com/zjunlp/ChineseHarm-bench.
English
Large language models (LLMs) have been increasingly applied to automated
harmful content detection tasks, assisting moderators in identifying policy
violations and improving the overall efficiency and accuracy of content review.
However, existing resources for harmful content detection are predominantly
focused on English, with Chinese datasets remaining scarce and often limited in
scope. We present a comprehensive, professionally annotated benchmark for
Chinese content harm detection, which covers six representative categories and
is constructed entirely from real-world data. Our annotation process further
yields a knowledge rule base that provides explicit expert knowledge to assist
LLMs in Chinese harmful content detection. In addition, we propose a
knowledge-augmented baseline that integrates both human-annotated knowledge
rules and implicit knowledge from large language models, enabling smaller
models to achieve performance comparable to state-of-the-art LLMs. Code and
data are available at https://github.com/zjunlp/ChineseHarm-bench.