LiveSecBench:面向中文语境下大型语言模型的动态与文化适应性AI安全基准测试
LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context
November 4, 2025
Autori: Yudong Li, Zhongliang Yang, Kejiang Chen, Wenxuan Wang, Tianxin Zhang, Sifang Wan, Kecheng Wang, Haitian Li, Xu Wang, Lefan Cheng, Youdan Yang, Baocheng Chen, Ziyu Liu, Yufei Sun, Liyan Wu, Wenya Wen, Xingchi Gu, Peiru Yang
cs.AI
Abstract
In questo lavoro proponiamo LiveSecBench, un benchmark di sicurezza dinamico e in continuo aggiornamento, specificamente concepito per gli scenari applicativi degli LLM in lingua cinese. LiveSecBench valuta i modelli attraverso sei dimensioni critiche (Legalità, Etica, Correttezza fattuale, Privacy, Robustezza agli attacchi avversari e Sicurezza del ragionamento) radicate nei quadri giuridici e sociali cinesi. Questo benchmark mantiene la sua rilevanza attraverso un programma di aggiornamento dinamico che incorpora nuovi vettori di minaccia, come l'inclusione pianificata della Sicurezza nella Generazione da Testo a Immagine e della Sicurezza Agente nel prossimo aggiornamento. Attualmente, LiveSecBench (v251030) ha valutato 18 LLM, fornendo una panoramica della sicurezza dell'IA nel contesto della lingua cinese. La classifica è pubblicamente accessibile all'indirizzo https://livesecbench.intokentech.cn/.
English
In this work, we propose LiveSecBench, a dynamic and continuously updated
safety benchmark specifically for Chinese-language LLM application scenarios.
LiveSecBench evaluates models across six critical dimensions (Legality, Ethics,
Factuality, Privacy, Adversarial Robustness, and Reasoning Safety) rooted in
the Chinese legal and social frameworks. This benchmark maintains relevance
through a dynamic update schedule that incorporates new threat vectors, such as
the planned inclusion of Text-to-Image Generation Safety and Agentic Safety in
the next update. For now, LiveSecBench (v251030) has evaluated 18 LLMs,
providing a landscape of AI safety in the context of Chinese language. The
leaderboard is publicly accessible at https://livesecbench.intokentech.cn/.