ChatPaper.aiChatPaper

Комплексный обзор безопасности полного стека LLM(-агентов): данные, обучение и развертывание

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

April 22, 2025
Авторы: Kun Wang, Guibin Zhang, Zhenhong Zhou, Jiahao Wu, Miao Yu, Shiqian Zhao, Chenlong Yin, Jinhu Fu, Yibo Yan, Hanjun Luo, Liang Lin, Zhihao Xu, Haolang Lu, Xinye Cao, Xinyun Zhou, Weifei Jin, Fanci Meng, Junyuan Mao, Hao Wu, Minghe Wang, Fan Zhang, Junfeng Fang, Chengwei Liu, Yifan Zhang, Qiankun Li, Chongye Guo, Yalan Qin, Yi Ding, Donghai Hong, Jiaming Ji, Xinfeng Li, Yifan Jiang, Dongxia Wang, Yihao Huang, Yufei Guo, Jen-tse Huang, Yanwei Yue, Wenke Huang, Guancheng Wan, Tianlin Li, Lei Bai, Jie Zhang, Qing Guo, Jingyi Wang, Tianlong Chen, Joey Tianyi Zhou, Xiaojun Jia, Weisong Sun, Cong Wu, Jing Chen, Xuming Hu, Yiming Li, Xiao Wang, Ningyu Zhang, Luu Anh Tuan, Guowen Xu, Tianwei Zhang, Xingjun Ma, Xiang Wang, Bo An, Jun Sun, Mohit Bansal, Shirui Pan, Yuval Elovici, Bhavya Kailkhura, Bo Li, Yaodong Yang, Hongwei Li, Wenyuan Xu, Yizhou Sun, Wei Wang, Qing Li, Ke Tang, Yu-Gang Jiang, Felix Juefei-Xu, Hui Xiong, Xiaofeng Wang, Shuicheng Yan, Dacheng Tao, Philip S. Yu, Qingsong Wen, Yang Liu
cs.AI

Аннотация

Выдающийся успех крупных языковых моделей (LLM) открыл многообещающий путь к достижению искусственного общего интеллекта как для академического, так и для промышленного сообществ, благодаря их беспрецедентной производительности в различных приложениях. По мере того как LLM продолжают набирать популярность в исследовательских и коммерческих областях, вопросы их безопасности и защиты становятся все более актуальными не только для исследователей и корпораций, но и для каждой страны. В настоящее время существующие обзоры по безопасности LLM в основном сосредоточены на конкретных этапах жизненного цикла LLM, например, на этапе развертывания или тонкой настройки, не охватывая полного понимания всей "жизненной цепочки" LLM. Чтобы устранить этот пробел, в данной статье впервые вводится концепция "полного стека" безопасности, которая систематически рассматривает вопросы безопасности на протяжении всего процесса обучения, развертывания и коммерциализации LLM. По сравнению с готовыми обзорами по безопасности LLM, наша работа демонстрирует несколько отличительных преимуществ: (I) Комплексный подход. Мы определяем полный жизненный цикл LLM как включающий подготовку данных, предварительное обучение, пост-обучение, развертывание и финальную коммерциализацию. Насколько нам известно, это первый обзор по безопасности, охватывающий весь жизненный цикл LLM. (II) Обширная литературная база. Наше исследование основано на тщательном анализе более 800 статей, что обеспечивает всестороннее покрытие и систематическую организацию вопросов безопасности в рамках более целостного понимания. (III) Уникальные инсайты. Благодаря систематическому анализу литературы мы разработали надежные дорожные карты и перспективы для каждой главы. Наша работа выявляет перспективные направления исследований, включая безопасность в генерации данных, методы согласования, редактирование моделей и системы на основе LLM. Эти инсайты предоставляют ценное руководство для исследователей, занимающихся будущими работами в этой области.
English
The remarkable success of Large Language Models (LLMs) has illuminated a promising pathway toward achieving Artificial General Intelligence for both academic and industrial communities, owing to their unprecedented performance across various applications. As LLMs continue to gain prominence in both research and commercial domains, their security and safety implications have become a growing concern, not only for researchers and corporations but also for every nation. Currently, existing surveys on LLM safety primarily focus on specific stages of the LLM lifecycle, e.g., deployment phase or fine-tuning phase, lacking a comprehensive understanding of the entire "lifechain" of LLMs. To address this gap, this paper introduces, for the first time, the concept of "full-stack" safety to systematically consider safety issues throughout the entire process of LLM training, deployment, and eventual commercialization. Compared to the off-the-shelf LLM safety surveys, our work demonstrates several distinctive advantages: (I) Comprehensive Perspective. We define the complete LLM lifecycle as encompassing data preparation, pre-training, post-training, deployment and final commercialization. To our knowledge, this represents the first safety survey to encompass the entire lifecycle of LLMs. (II) Extensive Literature Support. Our research is grounded in an exhaustive review of over 800+ papers, ensuring comprehensive coverage and systematic organization of security issues within a more holistic understanding. (III) Unique Insights. Through systematic literature analysis, we have developed reliable roadmaps and perspectives for each chapter. Our work identifies promising research directions, including safety in data generation, alignment techniques, model editing, and LLM-based agent systems. These insights provide valuable guidance for researchers pursuing future work in this field.

Summary

AI-Generated Summary

PDF132April 24, 2025