LiveSecBench: Динамический и культурно-релевантный тестовый комплекс для оценки безопасности ИИ в контексте китайского языка для больших языковых моделей
LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context
November 4, 2025
Авторы: Yudong Li, Zhongliang Yang, Kejiang Chen, Wenxuan Wang, Tianxin Zhang, Sifang Wan, Kecheng Wang, Haitian Li, Xu Wang, Lefan Cheng, Youdan Yang, Baocheng Chen, Ziyu Liu, Yufei Sun, Liyan Wu, Wenya Wen, Xingchi Gu, Peiru Yang
cs.AI
Аннотация
В данной работе мы представляем LiveSecBench — динамический и постоянно обновляемый тестовый комплекс для оценки безопасности, специально разработанный для сценариев применения языковых моделей в китайскоязычной среде. LiveSecBench оценивает модели по шести ключевым направлениям (законность, этичность, фактическая точность, конфиденциальность, устойчивость к адверсарным атакам и безопасность логических рассуждений), основанным на правовых и социальных нормах Китая. Актуальность тестового комплекса обеспечивается за счет динамического графика обновлений, включающего новые векторы угроз, такие как запланированное добавление оценки безопасности генерации изображений по тексту и безопасности агентских систем в следующем обновлении. На текущий момент LiveSecBench (v251030) протестировал 18 языковых моделей, предоставив обзор состояния безопасности ИИ в контексте китайского языка. Рейтинговая таблица общедоступна по адресу https://livesecbench.intokentech.cn/.
English
In this work, we propose LiveSecBench, a dynamic and continuously updated
safety benchmark specifically for Chinese-language LLM application scenarios.
LiveSecBench evaluates models across six critical dimensions (Legality, Ethics,
Factuality, Privacy, Adversarial Robustness, and Reasoning Safety) rooted in
the Chinese legal and social frameworks. This benchmark maintains relevance
through a dynamic update schedule that incorporates new threat vectors, such as
the planned inclusion of Text-to-Image Generation Safety and Agentic Safety in
the next update. For now, LiveSecBench (v251030) has evaluated 18 LLMs,
providing a landscape of AI safety in the context of Chinese language. The
leaderboard is publicly accessible at https://livesecbench.intokentech.cn/.