ChatPaper.aiChatPaper

La Sicurezza è Standardizzata per Tutti? Valutazione della Sicurezza Specifica per Utente nei Modelli Linguistici di Grandi Dimensioni

Is Safety Standard Same for Everyone? User-Specific Safety Evaluation of Large Language Models

February 20, 2025
Autori: Yeonjun In, Wonjoong Kim, Kanghoon Yoon, Sungchul Kim, Mehrab Tanjim, Kibum Kim, Chanyoung Park
cs.AI

Abstract

Con l'aumento dell'utilizzo degli agenti basati su modelli linguistici di grandi dimensioni (LLM), le loro vulnerabilità in termini di sicurezza sono diventate sempre più evidenti. Estesi benchmark valutano vari aspetti della sicurezza degli LLM definendo la sicurezza basandosi fortemente su standard generali, trascurando gli standard specifici per l'utente. Tuttavia, gli standard di sicurezza per gli LLM possono variare in base a profili specifici dell'utente piuttosto che essere universalmente consistenti per tutti gli utenti. Ciò solleva una questione di ricerca critica: gli agenti LLM agiscono in modo sicuro quando si considerano standard di sicurezza specifici per l'utente? Nonostante la sua importanza per un uso sicuro degli LLM, attualmente non esistono dataset di benchmark per valutare la sicurezza specifica per l'utente degli LLM. Per colmare questa lacuna, introduciamo U-SAFEBENCH, il primo benchmark progettato per valutare l'aspetto della sicurezza degli LLM specifico per l'utente. La nostra valutazione di 18 LLM ampiamente utilizzati rivela che gli attuali LLM non riescono ad agire in modo sicuro quando si considerano standard di sicurezza specifici per l'utente, segnando una nuova scoperta in questo campo. Per affrontare questa vulnerabilità, proponiamo un semplice rimedio basato sul ragionamento a catena (chain-of-thought), dimostrandone l'efficacia nel migliorare la sicurezza specifica per l'utente. Il nostro benchmark e il codice sono disponibili all'indirizzo https://github.com/yeonjun-in/U-SafeBench.
English
As the use of large language model (LLM) agents continues to grow, their safety vulnerabilities have become increasingly evident. Extensive benchmarks evaluate various aspects of LLM safety by defining the safety relying heavily on general standards, overlooking user-specific standards. However, safety standards for LLM may vary based on a user-specific profiles rather than being universally consistent across all users. This raises a critical research question: Do LLM agents act safely when considering user-specific safety standards? Despite its importance for safe LLM use, no benchmark datasets currently exist to evaluate the user-specific safety of LLMs. To address this gap, we introduce U-SAFEBENCH, the first benchmark designed to assess user-specific aspect of LLM safety. Our evaluation of 18 widely used LLMs reveals current LLMs fail to act safely when considering user-specific safety standards, marking a new discovery in this field. To address this vulnerability, we propose a simple remedy based on chain-of-thought, demonstrating its effectiveness in improving user-specific safety. Our benchmark and code are available at https://github.com/yeonjun-in/U-SafeBench.

Summary

AI-Generated Summary

PDF162February 24, 2025