LiveSecBench:面向中文语境大语言模型的动态文化相关AI安全基准测试
LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context
November 4, 2025
Autores: Yudong Li, Zhongliang Yang, Kejiang Chen, Wenxuan Wang, Tianxin Zhang, Sifang Wan, Kecheng Wang, Haitian Li, Xu Wang, Lefan Cheng, Youdan Yang, Baocheng Chen, Ziyu Liu, Yufei Sun, Liyan Wu, Wenya Wen, Xingchi Gu, Peiru Yang
cs.AI
Resumo
Neste trabalho, propomos o LiveSecBench, um benchmark de segurança dinâmico e continuamente atualizado, especificamente desenvolvido para cenários de aplicação de LLMs em língua chinesa. O LiveSecBench avalia os modelos em seis dimensões críticas (Legalidade, Ética, Factualidade, Privacidade, Robustez Adversarial e Segurança no Raciocínio) fundamentadas nos quadros legais e sociais chineses. Este benchmark mantém a relevância através de um cronograma de atualização dinâmica que incorpora novos vetores de ameaça, como a inclusão planejada da Segurança na Geração de Texto para Imagem e da Segurança em Agentes na próxima atualização. Atualmente, o LiveSecBench (v251030) avaliou 18 LLMs, fornecendo um panorama da segurança da IA no contexto da língua chinesa. O ranking está publicamente acessível em https://livesecbench.intokentech.cn/.
English
In this work, we propose LiveSecBench, a dynamic and continuously updated
safety benchmark specifically for Chinese-language LLM application scenarios.
LiveSecBench evaluates models across six critical dimensions (Legality, Ethics,
Factuality, Privacy, Adversarial Robustness, and Reasoning Safety) rooted in
the Chinese legal and social frameworks. This benchmark maintains relevance
through a dynamic update schedule that incorporates new threat vectors, such as
the planned inclusion of Text-to-Image Generation Safety and Agentic Safety in
the next update. For now, LiveSecBench (v251030) has evaluated 18 LLMs,
providing a landscape of AI safety in the context of Chinese language. The
leaderboard is publicly accessible at https://livesecbench.intokentech.cn/.