ChineseHarm-Bench: Бенчмарк для обнаружения вредоносного контента на китайском языке
ChineseHarm-Bench: A Chinese Harmful Content Detection Benchmark
June 12, 2025
Авторы: Kangwei Liu, Siyuan Cheng, Bozhong Tian, Xiaozhuan Liang, Yuyang Yin, Meng Han, Ningyu Zhang, Bryan Hooi, Xi Chen, Shumin Deng
cs.AI
Аннотация
Крупные языковые модели (LLM) всё чаще применяются для автоматизированного обнаружения вредоносного контента, помогая модераторам выявлять нарушения политик и повышая общую эффективность и точность проверки контента. Однако существующие ресурсы для обнаружения вредоносного контента в основном сосредоточены на английском языке, в то время как китайские наборы данных остаются редкими и часто ограниченными по охвату. Мы представляем всеобъемлющий, профессионально аннотированный бенчмарк для обнаружения вредоносного контента на китайском языке, который охватывает шесть репрезентативных категорий и полностью построен на реальных данных. Наш процесс аннотации также позволяет создать базу знаний, содержащую явные экспертные знания для помощи LLM в обнаружении вредоносного контента на китайском языке. Кроме того, мы предлагаем базовый метод, усиленный знаниями, который интегрирует как аннотированные человеком правила, так и неявные знания из крупных языковых моделей, что позволяет более компактным моделям достигать производительности, сопоставимой с современными LLM. Код и данные доступны по адресу https://github.com/zjunlp/ChineseHarm-bench.
English
Large language models (LLMs) have been increasingly applied to automated
harmful content detection tasks, assisting moderators in identifying policy
violations and improving the overall efficiency and accuracy of content review.
However, existing resources for harmful content detection are predominantly
focused on English, with Chinese datasets remaining scarce and often limited in
scope. We present a comprehensive, professionally annotated benchmark for
Chinese content harm detection, which covers six representative categories and
is constructed entirely from real-world data. Our annotation process further
yields a knowledge rule base that provides explicit expert knowledge to assist
LLMs in Chinese harmful content detection. In addition, we propose a
knowledge-augmented baseline that integrates both human-annotated knowledge
rules and implicit knowledge from large language models, enabling smaller
models to achieve performance comparable to state-of-the-art LLMs. Code and
data are available at https://github.com/zjunlp/ChineseHarm-bench.