ChineseHarm-Bench: Um Benchmark para Detecção de Conteúdo Nocivo em Chinês

Resumo

Modelos de linguagem de grande escala (LLMs) têm sido cada vez mais aplicados a tarefas automatizadas de detecção de conteúdo nocivo, auxiliando moderadores na identificação de violações de políticas e melhorando a eficiência e precisão geral da revisão de conteúdo. No entanto, os recursos existentes para detecção de conteúdo nocivo são predominantemente focados no inglês, com conjuntos de dados em chinês permanecendo escassos e frequentemente limitados em escopo. Apresentamos um benchmark abrangente e profissionalmente anotado para detecção de conteúdo nocivo em chinês, que cobre seis categorias representativas e é construído inteiramente a partir de dados do mundo real. Nosso processo de anotação ainda gera uma base de regras de conhecimento que fornece conhecimento explícito de especialistas para auxiliar LLMs na detecção de conteúdo nocivo em chinês. Além disso, propomos uma linha de base aumentada por conhecimento que integra tanto regras de conhecimento anotadas por humanos quanto conhecimento implícito de modelos de linguagem de grande escala, permitindo que modelos menores alcancem desempenho comparável aos LLMs de última geração. Código e dados estão disponíveis em https://github.com/zjunlp/ChineseHarm-bench.

English

Large language models (LLMs) have been increasingly applied to automated harmful content detection tasks, assisting moderators in identifying policy violations and improving the overall efficiency and accuracy of content review. However, existing resources for harmful content detection are predominantly focused on English, with Chinese datasets remaining scarce and often limited in scope. We present a comprehensive, professionally annotated benchmark for Chinese content harm detection, which covers six representative categories and is constructed entirely from real-world data. Our annotation process further yields a knowledge rule base that provides explicit expert knowledge to assist LLMs in Chinese harmful content detection. In addition, we propose a knowledge-augmented baseline that integrates both human-annotated knowledge rules and implicit knowledge from large language models, enabling smaller models to achieve performance comparable to state-of-the-art LLMs. Code and data are available at https://github.com/zjunlp/ChineseHarm-bench.

ChineseHarm-Bench: Um Benchmark para Detecção de Conteúdo Nocivo em Chinês

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

Resumo

Support