LiveSecBench: 中国語コンテキストにおけるLLMのための動的かつ文化的関連性を考慮したAI安全性ベンチマーク
LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context
November 4, 2025
著者: Yudong Li, Zhongliang Yang, Kejiang Chen, Wenxuan Wang, Tianxin Zhang, Sifang Wan, Kecheng Wang, Haitian Li, Xu Wang, Lefan Cheng, Youdan Yang, Baocheng Chen, Ziyu Liu, Yufei Sun, Liyan Wu, Wenya Wen, Xingchi Gu, Peiru Yang
cs.AI
要旨
本論文では、中国語LLM応用シナリオに特化した動的かつ継続的に更新される安全性ベンチマーク「LiveSecBench」を提案する。本ベンチマークは、中国の法的・社会的枠組みに基づく6つの重要次元(合法性、倫理性、事実正確性、プライバシー、敵対的頑健性、推論安全性)でモデルを評価する。新たな脅威ベクトル(次期アップデートではテキスト画像生成安全性とエージェント安全性の追加を予定)を組み込む動的更新スケジュールにより、関連性を維持している。現在、LiveSecBench(v251030)は18のLLMを評価し、中国語コンテキストにおけるAI安全性の全体像を提供している。リーダーボードはhttps://livesecbench.intokentech.cn/で公開されている。
English
In this work, we propose LiveSecBench, a dynamic and continuously updated
safety benchmark specifically for Chinese-language LLM application scenarios.
LiveSecBench evaluates models across six critical dimensions (Legality, Ethics,
Factuality, Privacy, Adversarial Robustness, and Reasoning Safety) rooted in
the Chinese legal and social frameworks. This benchmark maintains relevance
through a dynamic update schedule that incorporates new threat vectors, such as
the planned inclusion of Text-to-Image Generation Safety and Agentic Safety in
the next update. For now, LiveSecBench (v251030) has evaluated 18 LLMs,
providing a landscape of AI safety in the context of Chinese language. The
leaderboard is publicly accessible at https://livesecbench.intokentech.cn/.