LiveSecBench：面向中文语境大语言模型的动态文化相关AI安全基准

Résumé

Dans ce travail, nous proposons LiveSecBench, un benchmark de sécurité dynamique et continuellement mis à jour, spécifiquement conçu pour les scénarios d'application des LLM en langue chinoise. LiveSecBench évalue les modèles selon six dimensions critiques (Légalité, Éthique, Factualité, Vie privée, Robustesse aux attaques adverses et Sécurité du raisonnement) ancrées dans les cadres juridiques et sociaux chinois. Ce benchmark maintient sa pertinence grâce à un calendrier de mise à jour dynamique qui intègre de nouveaux vecteurs de menace, comme l'inclusion prévue de la sécurité de la génération texte-image et de la sécurité des agents dans la prochaine mise à jour. Pour l'instant, LiveSecBench (v251030) a évalué 18 LLM, offrant un panorama de la sécurité de l'IA dans le contexte de la langue chinoise. Le classement est accessible publiquement à l'adresse https://livesecbench.intokentech.cn/.

English

In this work, we propose LiveSecBench, a dynamic and continuously updated safety benchmark specifically for Chinese-language LLM application scenarios. LiveSecBench evaluates models across six critical dimensions (Legality, Ethics, Factuality, Privacy, Adversarial Robustness, and Reasoning Safety) rooted in the Chinese legal and social frameworks. This benchmark maintains relevance through a dynamic update schedule that incorporates new threat vectors, such as the planned inclusion of Text-to-Image Generation Safety and Agentic Safety in the next update. For now, LiveSecBench (v251030) has evaluated 18 LLMs, providing a landscape of AI safety in the context of Chinese language. The leaderboard is publicly accessible at https://livesecbench.intokentech.cn/.