ChatPaper.aiChatPaper

Una Revisión Integral sobre la Seguridad en el Stack Completo de LLM(-Agente): Datos, Entrenamiento e Implementación

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

April 22, 2025
Autores: Kun Wang, Guibin Zhang, Zhenhong Zhou, Jiahao Wu, Miao Yu, Shiqian Zhao, Chenlong Yin, Jinhu Fu, Yibo Yan, Hanjun Luo, Liang Lin, Zhihao Xu, Haolang Lu, Xinye Cao, Xinyun Zhou, Weifei Jin, Fanci Meng, Junyuan Mao, Hao Wu, Minghe Wang, Fan Zhang, Junfeng Fang, Chengwei Liu, Yifan Zhang, Qiankun Li, Chongye Guo, Yalan Qin, Yi Ding, Donghai Hong, Jiaming Ji, Xinfeng Li, Yifan Jiang, Dongxia Wang, Yihao Huang, Yufei Guo, Jen-tse Huang, Yanwei Yue, Wenke Huang, Guancheng Wan, Tianlin Li, Lei Bai, Jie Zhang, Qing Guo, Jingyi Wang, Tianlong Chen, Joey Tianyi Zhou, Xiaojun Jia, Weisong Sun, Cong Wu, Jing Chen, Xuming Hu, Yiming Li, Xiao Wang, Ningyu Zhang, Luu Anh Tuan, Guowen Xu, Tianwei Zhang, Xingjun Ma, Xiang Wang, Bo An, Jun Sun, Mohit Bansal, Shirui Pan, Yuval Elovici, Bhavya Kailkhura, Bo Li, Yaodong Yang, Hongwei Li, Wenyuan Xu, Yizhou Sun, Wei Wang, Qing Li, Ke Tang, Yu-Gang Jiang, Felix Juefei-Xu, Hui Xiong, Xiaofeng Wang, Shuicheng Yan, Dacheng Tao, Philip S. Yu, Qingsong Wen, Yang Liu
cs.AI

Resumen

El notable éxito de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) ha iluminado un camino prometedor hacia la consecución de la Inteligencia Artificial General tanto para las comunidades académicas como industriales, gracias a su desempeño sin precedentes en diversas aplicaciones. A medida que los LLMs continúan ganando prominencia en los ámbitos de investigación y comerciales, sus implicaciones en seguridad y protección se han convertido en una preocupación creciente, no solo para investigadores y corporaciones, sino también para cada nación. Actualmente, las revisiones existentes sobre la seguridad de los LLMs se centran principalmente en etapas específicas del ciclo de vida de estos modelos, como la fase de despliegue o la de ajuste fino, careciendo de una comprensión integral de toda la "cadena de vida" de los LLMs. Para abordar esta brecha, este artículo introduce, por primera vez, el concepto de seguridad de "pila completa" para considerar sistemáticamente los problemas de seguridad a lo largo de todo el proceso de entrenamiento, despliegue y eventual comercialización de los LLMs. En comparación con las revisiones de seguridad de LLMs disponibles, nuestro trabajo demuestra varias ventajas distintivas: (I) Perspectiva Integral. Definimos el ciclo de vida completo de los LLMs como aquel que abarca la preparación de datos, el preentrenamiento, el postentrenamiento, el despliegue y la comercialización final. Hasta donde sabemos, esta es la primera revisión de seguridad que abarca todo el ciclo de vida de los LLMs. (II) Amplio Soporte Bibliográfico. Nuestra investigación se basa en una revisión exhaustiva de más de 800 artículos, asegurando una cobertura completa y una organización sistemática de los problemas de seguridad dentro de una comprensión más holística. (III) Perspectivas Únicas. A través del análisis sistemático de la literatura, hemos desarrollado mapas de ruta confiables y perspectivas para cada capítulo. Nuestro trabajo identifica direcciones de investigación prometedoras, incluyendo la seguridad en la generación de datos, las técnicas de alineación, la edición de modelos y los sistemas basados en agentes de LLMs. Estas perspectivas proporcionan una guía valiosa para los investigadores que buscan futuros trabajos en este campo.
English
The remarkable success of Large Language Models (LLMs) has illuminated a promising pathway toward achieving Artificial General Intelligence for both academic and industrial communities, owing to their unprecedented performance across various applications. As LLMs continue to gain prominence in both research and commercial domains, their security and safety implications have become a growing concern, not only for researchers and corporations but also for every nation. Currently, existing surveys on LLM safety primarily focus on specific stages of the LLM lifecycle, e.g., deployment phase or fine-tuning phase, lacking a comprehensive understanding of the entire "lifechain" of LLMs. To address this gap, this paper introduces, for the first time, the concept of "full-stack" safety to systematically consider safety issues throughout the entire process of LLM training, deployment, and eventual commercialization. Compared to the off-the-shelf LLM safety surveys, our work demonstrates several distinctive advantages: (I) Comprehensive Perspective. We define the complete LLM lifecycle as encompassing data preparation, pre-training, post-training, deployment and final commercialization. To our knowledge, this represents the first safety survey to encompass the entire lifecycle of LLMs. (II) Extensive Literature Support. Our research is grounded in an exhaustive review of over 800+ papers, ensuring comprehensive coverage and systematic organization of security issues within a more holistic understanding. (III) Unique Insights. Through systematic literature analysis, we have developed reliable roadmaps and perspectives for each chapter. Our work identifies promising research directions, including safety in data generation, alignment techniques, model editing, and LLM-based agent systems. These insights provide valuable guidance for researchers pursuing future work in this field.

Summary

AI-Generated Summary

PDF132April 24, 2025