Un'Analisi Completa sulla Sicurezza a Tutto Tondo degli LLM (Agenti): Dati, Addestramento e Implementazione
A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment
April 22, 2025
Autori: Kun Wang, Guibin Zhang, Zhenhong Zhou, Jiahao Wu, Miao Yu, Shiqian Zhao, Chenlong Yin, Jinhu Fu, Yibo Yan, Hanjun Luo, Liang Lin, Zhihao Xu, Haolang Lu, Xinye Cao, Xinyun Zhou, Weifei Jin, Fanci Meng, Junyuan Mao, Hao Wu, Minghe Wang, Fan Zhang, Junfeng Fang, Chengwei Liu, Yifan Zhang, Qiankun Li, Chongye Guo, Yalan Qin, Yi Ding, Donghai Hong, Jiaming Ji, Xinfeng Li, Yifan Jiang, Dongxia Wang, Yihao Huang, Yufei Guo, Jen-tse Huang, Yanwei Yue, Wenke Huang, Guancheng Wan, Tianlin Li, Lei Bai, Jie Zhang, Qing Guo, Jingyi Wang, Tianlong Chen, Joey Tianyi Zhou, Xiaojun Jia, Weisong Sun, Cong Wu, Jing Chen, Xuming Hu, Yiming Li, Xiao Wang, Ningyu Zhang, Luu Anh Tuan, Guowen Xu, Tianwei Zhang, Xingjun Ma, Xiang Wang, Bo An, Jun Sun, Mohit Bansal, Shirui Pan, Yuval Elovici, Bhavya Kailkhura, Bo Li, Yaodong Yang, Hongwei Li, Wenyuan Xu, Yizhou Sun, Wei Wang, Qing Li, Ke Tang, Yu-Gang Jiang, Felix Juefei-Xu, Hui Xiong, Xiaofeng Wang, Shuicheng Yan, Dacheng Tao, Philip S. Yu, Qingsong Wen, Yang Liu
cs.AI
Abstract
Il notevole successo dei Large Language Models (LLM) ha illuminato una via promettente verso il raggiungimento dell'Intelligenza Artificiale Generale, sia per la comunità accademica che per quella industriale, grazie alle loro prestazioni senza precedenti in varie applicazioni. Man mano che i LLM continuano a guadagnare importanza sia nel campo della ricerca che in quello commerciale, le implicazioni per la loro sicurezza e affidabilità sono diventate una preoccupazione crescente, non solo per i ricercatori e le aziende, ma anche per ogni nazione. Attualmente, le revisioni esistenti sulla sicurezza dei LLM si concentrano principalmente su fasi specifiche del ciclo di vita dei LLM, ad esempio la fase di distribuzione o di fine-tuning, mancando di una comprensione completa dell'intera "catena di vita" dei LLM. Per colmare questa lacuna, questo articolo introduce, per la prima volta, il concetto di sicurezza "full-stack" per considerare sistematicamente i problemi di sicurezza durante l'intero processo di addestramento, distribuzione e commercializzazione finale dei LLM. Rispetto alle revisioni standard sulla sicurezza dei LLM, il nostro lavoro dimostra diversi vantaggi distintivi: (I) Prospettiva Completa. Definiamo il ciclo di vita completo dei LLM come comprendente la preparazione dei dati, il pre-addestramento, il post-addestramento, la distribuzione e la commercializzazione finale. Per quanto ne sappiamo, questa rappresenta la prima revisione sulla sicurezza che copre l'intero ciclo di vita dei LLM. (II) Ampio Supporto Letterario. La nostra ricerca è basata su una revisione esaustiva di oltre 800 articoli, garantendo una copertura completa e un'organizzazione sistematica dei problemi di sicurezza all'interno di una comprensione più olistica. (III) Approfondimenti Unici. Attraverso un'analisi sistematica della letteratura, abbiamo sviluppato roadmap affidabili e prospettive per ogni capitolo. Il nostro lavoro identifica promettenti direzioni di ricerca, tra cui la sicurezza nella generazione dei dati, le tecniche di allineamento, la modifica dei modelli e i sistemi di agenti basati su LLM. Questi approfondimenti forniscono una guida preziosa per i ricercatori che intendono perseguire lavori futuri in questo campo.
English
The remarkable success of Large Language Models (LLMs) has illuminated a
promising pathway toward achieving Artificial General Intelligence for both
academic and industrial communities, owing to their unprecedented performance
across various applications. As LLMs continue to gain prominence in both
research and commercial domains, their security and safety implications have
become a growing concern, not only for researchers and corporations but also
for every nation. Currently, existing surveys on LLM safety primarily focus on
specific stages of the LLM lifecycle, e.g., deployment phase or fine-tuning
phase, lacking a comprehensive understanding of the entire "lifechain" of LLMs.
To address this gap, this paper introduces, for the first time, the concept of
"full-stack" safety to systematically consider safety issues throughout the
entire process of LLM training, deployment, and eventual commercialization.
Compared to the off-the-shelf LLM safety surveys, our work demonstrates several
distinctive advantages: (I) Comprehensive Perspective. We define the complete
LLM lifecycle as encompassing data preparation, pre-training, post-training,
deployment and final commercialization. To our knowledge, this represents the
first safety survey to encompass the entire lifecycle of LLMs. (II) Extensive
Literature Support. Our research is grounded in an exhaustive review of over
800+ papers, ensuring comprehensive coverage and systematic organization of
security issues within a more holistic understanding. (III) Unique Insights.
Through systematic literature analysis, we have developed reliable roadmaps and
perspectives for each chapter. Our work identifies promising research
directions, including safety in data generation, alignment techniques, model
editing, and LLM-based agent systems. These insights provide valuable guidance
for researchers pursuing future work in this field.Summary
AI-Generated Summary