LLM(-에이전트) 전체 스택 안전성에 대한 포괄적 조사: 데이터, 훈련 및 배포
A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment
April 22, 2025
저자: Kun Wang, Guibin Zhang, Zhenhong Zhou, Jiahao Wu, Miao Yu, Shiqian Zhao, Chenlong Yin, Jinhu Fu, Yibo Yan, Hanjun Luo, Liang Lin, Zhihao Xu, Haolang Lu, Xinye Cao, Xinyun Zhou, Weifei Jin, Fanci Meng, Junyuan Mao, Hao Wu, Minghe Wang, Fan Zhang, Junfeng Fang, Chengwei Liu, Yifan Zhang, Qiankun Li, Chongye Guo, Yalan Qin, Yi Ding, Donghai Hong, Jiaming Ji, Xinfeng Li, Yifan Jiang, Dongxia Wang, Yihao Huang, Yufei Guo, Jen-tse Huang, Yanwei Yue, Wenke Huang, Guancheng Wan, Tianlin Li, Lei Bai, Jie Zhang, Qing Guo, Jingyi Wang, Tianlong Chen, Joey Tianyi Zhou, Xiaojun Jia, Weisong Sun, Cong Wu, Jing Chen, Xuming Hu, Yiming Li, Xiao Wang, Ningyu Zhang, Luu Anh Tuan, Guowen Xu, Tianwei Zhang, Xingjun Ma, Xiang Wang, Bo An, Jun Sun, Mohit Bansal, Shirui Pan, Yuval Elovici, Bhavya Kailkhura, Bo Li, Yaodong Yang, Hongwei Li, Wenyuan Xu, Yizhou Sun, Wei Wang, Qing Li, Ke Tang, Yu-Gang Jiang, Felix Juefei-Xu, Hui Xiong, Xiaofeng Wang, Shuicheng Yan, Dacheng Tao, Philip S. Yu, Qingsong Wen, Yang Liu
cs.AI
초록
대규모 언어 모델(LLM)의 놀라운 성공은 다양한 애플리케이션에서 전례 없는 성능을 보이며 학계와 산업계 모두에게 인공 일반 지능(AGI) 달성에 대한 유망한 길을 제시했습니다. LLM이 연구 및 상업적 영역에서 계속해서 두각을 나타내면서, 그들의 보안과 안전에 대한 문제는 연구자와 기업뿐만 아니라 모든 국가에게도 점점 더 큰 관심사로 부상하고 있습니다. 현재, LLM 안전성에 대한 기존의 조사는 주로 LLM 생명주기의 특정 단계, 예를 들어 배포 단계나 미세 조정 단계에 초점을 맞추고 있어, LLM의 전체 "생명사슬"에 대한 포괄적인 이해가 부족합니다. 이러한 격차를 해결하기 위해, 본 논문은 처음으로 "풀스택" 안전성 개념을 도입하여 LLM의 훈련, 배포, 그리고 최종 상업화의 전 과정에 걸친 안전 문제를 체계적으로 고려합니다. 기존의 LLM 안전성 조사와 비교하여, 우리의 작업은 몇 가지 독특한 장점을 보여줍니다: (I) 포괄적인 관점. 우리는 데이터 준비, 사전 훈련, 사후 훈련, 배포 및 최종 상업화를 포함하는 완전한 LLM 생명주기를 정의합니다. 우리가 아는 한, 이는 LLM의 전체 생명주기를 포괄하는 첫 번째 안전성 조사입니다. (II) 광범위한 문헌 지원. 우리의 연구는 800편 이상의 논문을 철저히 검토하여 보안 문제를 포괄적으로 다루고 체계적으로 조직화함으로써 더욱 전체적인 이해를 제공합니다. (III) 독창적인 통찰. 체계적인 문헌 분석을 통해, 우리는 각 장에 대한 신뢰할 수 있는 로드맵과 관점을 개발했습니다. 우리의 작업은 데이터 생성의 안전성, 정렬 기술, 모델 편집, 그리고 LLM 기반 에이전트 시스템과 같은 유망한 연구 방향을 식별합니다. 이러한 통찰은 이 분야에서 미래의 연구를 추구하는 연구자들에게 귀중한 지침을 제공합니다.
English
The remarkable success of Large Language Models (LLMs) has illuminated a
promising pathway toward achieving Artificial General Intelligence for both
academic and industrial communities, owing to their unprecedented performance
across various applications. As LLMs continue to gain prominence in both
research and commercial domains, their security and safety implications have
become a growing concern, not only for researchers and corporations but also
for every nation. Currently, existing surveys on LLM safety primarily focus on
specific stages of the LLM lifecycle, e.g., deployment phase or fine-tuning
phase, lacking a comprehensive understanding of the entire "lifechain" of LLMs.
To address this gap, this paper introduces, for the first time, the concept of
"full-stack" safety to systematically consider safety issues throughout the
entire process of LLM training, deployment, and eventual commercialization.
Compared to the off-the-shelf LLM safety surveys, our work demonstrates several
distinctive advantages: (I) Comprehensive Perspective. We define the complete
LLM lifecycle as encompassing data preparation, pre-training, post-training,
deployment and final commercialization. To our knowledge, this represents the
first safety survey to encompass the entire lifecycle of LLMs. (II) Extensive
Literature Support. Our research is grounded in an exhaustive review of over
800+ papers, ensuring comprehensive coverage and systematic organization of
security issues within a more holistic understanding. (III) Unique Insights.
Through systematic literature analysis, we have developed reliable roadmaps and
perspectives for each chapter. Our work identifies promising research
directions, including safety in data generation, alignment techniques, model
editing, and LLM-based agent systems. These insights provide valuable guidance
for researchers pursuing future work in this field.Summary
AI-Generated Summary