ChatPaper.aiChatPaper

LiveSecBench: Un punto de referencia dinámico y culturalmente relevante para la seguridad de la IA en modelos de lenguaje grandes en contextos chinos

LiveSecBench: A Dynamic and Culturally-Relevant AI Safety Benchmark for LLMs in Chinese Context

November 4, 2025
Autores: Yudong Li, Zhongliang Yang, Kejiang Chen, Wenxuan Wang, Tianxin Zhang, Sifang Wan, Kecheng Wang, Haitian Li, Xu Wang, Lefan Cheng, Youdan Yang, Baocheng Chen, Ziyu Liu, Yufei Sun, Liyan Wu, Wenya Wen, Xingchi Gu, Peiru Yang
cs.AI

Resumen

En este trabajo, proponemos LiveSecBench, un benchmark de seguridad dinámico y de actualización continua diseñado específicamente para escenarios de aplicación de LLM en idioma chino. LiveSecBench evalúa los modelos en seis dimensiones críticas (Legalidad, Ética, Veracidad, Privacidad, Robustez Adversarial y Seguridad del Razonamiento) fundamentadas en los marcos legales y sociales chinos. Este benchmark mantiene su relevancia mediante un programa de actualización dinámica que incorpora nuevos vectores de amenaza, como la inclusión planificada de Seguridad en Generación de Texto a Imagen y Seguridad de Agentes en la próxima actualización. Por ahora, LiveSecBench (v251030) ha evaluado 18 LLM, ofreciendo una panorámica de la seguridad de la IA en el contexto del idioma chino. La tabla de clasificación es de acceso público en https://livesecbench.intokentech.cn/.
English
In this work, we propose LiveSecBench, a dynamic and continuously updated safety benchmark specifically for Chinese-language LLM application scenarios. LiveSecBench evaluates models across six critical dimensions (Legality, Ethics, Factuality, Privacy, Adversarial Robustness, and Reasoning Safety) rooted in the Chinese legal and social frameworks. This benchmark maintains relevance through a dynamic update schedule that incorporates new threat vectors, such as the planned inclusion of Text-to-Image Generation Safety and Agentic Safety in the next update. For now, LiveSecBench (v251030) has evaluated 18 LLMs, providing a landscape of AI safety in the context of Chinese language. The leaderboard is publicly accessible at https://livesecbench.intokentech.cn/.
PDF31December 2, 2025