ChatPaper.aiChatPaper

ChineseHarm-Bench: Un Punto de Referencia para la Detección de Contenido Dañino en Chino

ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark

June 12, 2025
Autores: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) se han aplicado cada vez más a tareas de detección automatizada de contenido dañino, ayudando a los moderadores a identificar violaciones de políticas y mejorando la eficiencia y precisión general de la revisión de contenido. Sin embargo, los recursos existentes para la detección de contenido dañino se centran predominantemente en el inglés, siendo los conjuntos de datos en chino escasos y a menudo limitados en alcance. Presentamos un punto de referencia integral y profesionalmente anotado para la detección de contenido dañino en chino, que cubre seis categorías representativas y está construido completamente a partir de datos del mundo real. Nuestro proceso de anotación también produce una base de reglas de conocimiento que proporciona conocimiento experto explícito para ayudar a los LLMs en la detección de contenido dañino en chino. Además, proponemos una línea base aumentada con conocimiento que integra tanto reglas de conocimiento anotadas por humanos como conocimiento implícito de modelos de lenguaje de gran escala, permitiendo que modelos más pequeños alcancen un rendimiento comparable al de los LLMs más avanzados. El código y los datos están disponibles en https://github.com/zjunlp/ChineseHarm-bench.
English
Large language models (LLMs) have been increasingly applied to automated harmful content detection tasks, assisting moderators in identifying policy violations and improving the overall efficiency and accuracy of content review. However, existing resources for harmful content detection are predominantly focused on English, with Chinese datasets remaining scarce and often limited in scope. We present a comprehensive, professionally annotated benchmark for Chinese content harm detection, which covers six representative categories and is constructed entirely from real-world data. Our annotation process further yields a knowledge rule base that provides explicit expert knowledge to assist LLMs in Chinese harmful content detection. In addition, we propose a knowledge-augmented baseline that integrates both human-annotated knowledge rules and implicit knowledge from large language models, enabling smaller models to achieve performance comparable to state-of-the-art LLMs. Code and data are available at https://github.com/zjunlp/ChineseHarm-bench.
PDF92June 13, 2025