LiveSecBench: Ein dynamischer und kulturell relevanter KI-Sicherheitsbenchmark für LLMs im chinesischen Kontext
LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context
November 4, 2025
papers.authors: Yudong Li, Zhongliang Yang, Kejiang Chen, Wenxuan Wang, Tianxin Zhang, Sifang Wan, Kecheng Wang, Haitian Li, Xu Wang, Lefan Cheng, Youdan Yang, Baocheng Chen, Ziyu Liu, Yufei Sun, Liyan Wu, Wenya Wen, Xingchi Gu, Peiru Yang
cs.AI
papers.abstract
In dieser Arbeit stellen wir LiveSecBench vor, einen dynamischen und kontinuierlich aktualisierten Sicherheitsmaßstab speziell für chinesischsprachige LLM-Anwendungsszenarien. LiveSecBench bewertet Modelle in sechs kritischen Dimensionen (Rechtmäßigkeit, Ethik, Faktizität, Privatsphäre, Robustheit gegenüber Adversarial Attacks und Sicherheit des Schlussfolgerns), die in den chinesischen rechtlichen und sozialen Rahmenwerken verankert sind. Dieser Benchmark gewährleistet seine Relevanz durch einen dynamischen Aktualisierungszyklus, der neue Bedrohungsvektoren integriert, wie die geplante Aufnahme von Sicherheit bei Text-zu-Bild-Generierung und Agenten-Sicherheit im nächsten Update. Derzeit hat LiveSecBench (v251030) 18 LLMs evaluiert und bietet damit einen Überblick über die KI-Sicherheit im Kontext der chinesischen Sprache. Die Bestenliste ist öffentlich zugänglich unter https://livesecbench.intokentech.cn/.
English
In this work, we propose LiveSecBench, a dynamic and continuously updated
safety benchmark specifically for Chinese-language LLM application scenarios.
LiveSecBench evaluates models across six critical dimensions (Legality, Ethics,
Factuality, Privacy, Adversarial Robustness, and Reasoning Safety) rooted in
the Chinese legal and social frameworks. This benchmark maintains relevance
through a dynamic update schedule that incorporates new threat vectors, such as
the planned inclusion of Text-to-Image Generation Safety and Agentic Safety in
the next update. For now, LiveSecBench (v251030) has evaluated 18 LLMs,
providing a landscape of AI safety in the context of Chinese language. The
leaderboard is publicly accessible at https://livesecbench.intokentech.cn/.