Sicurezza Personalizzata nei LLM: Un Benchmark e un Approccio Basato su Agenti di Pianificazione
Personalized Safety in LLMs: A Benchmark and A Planning-Based Agent Approach
May 24, 2025
Autori: Yuchen Wu, Edward Sun, Kaijie Zhu, Jianxun Lian, Jose Hernandez-Orallo, Aylin Caliskan, Jindong Wang
cs.AI
Abstract
I grandi modelli linguistici (LLM) generano tipicamente risposte identiche o simili per tutti gli utenti a fronte dello stesso prompt, rappresentando un serio rischio per la sicurezza in applicazioni ad alto rischio dove le vulnerabilità degli utenti variano ampiamente. Le valutazioni di sicurezza esistenti si basano principalmente su metriche indipendenti dal contesto, come l'accuratezza fattuale, i pregiudizi o la tossicità, trascurando il fatto che la stessa risposta può comportare rischi divergenti a seconda del background o della condizione dell'utente. Introduciamo la sicurezza personalizzata per colmare questa lacuna e presentiamo PENGUIN, un benchmark che comprende 14.000 scenari in sette domini sensibili con varianti sia ricche di contesto che prive di contesto. Valutando sei principali LLM, dimostriamo che le informazioni personalizzate sull'utente migliorano significativamente i punteggi di sicurezza del 43,2%, confermando l'efficacia della personalizzazione nell'allineamento della sicurezza. Tuttavia, non tutti gli attributi del contesto contribuiscono in egual modo al miglioramento della sicurezza. Per affrontare questo problema, sviluppiamo RAISE, un framework agente a due fasi senza addestramento che acquisisce strategicamente il background specifico dell'utente. RAISE migliora i punteggi di sicurezza fino al 31,6% rispetto a sei LLM standard, mantenendo un basso costo di interazione di appena 2,7 query utente in media. I nostri risultati evidenziano l'importanza della raccolta selettiva di informazioni nei domini critici per la sicurezza e offrono una soluzione pratica per personalizzare le risposte degli LLM senza dover riaddestrare il modello. Questo lavoro getta le basi per la ricerca sulla sicurezza che si adatta ai contesti individuali degli utenti piuttosto che assumere uno standard universale di danno.
English
Large language models (LLMs) typically generate identical or similar
responses for all users given the same prompt, posing serious safety risks in
high-stakes applications where user vulnerabilities differ widely. Existing
safety evaluations primarily rely on context-independent metrics - such as
factuality, bias, or toxicity - overlooking the fact that the same response may
carry divergent risks depending on the user's background or condition. We
introduce personalized safety to fill this gap and present PENGUIN - a
benchmark comprising 14,000 scenarios across seven sensitive domains with both
context-rich and context-free variants. Evaluating six leading LLMs, we
demonstrate that personalized user information significantly improves safety
scores by 43.2%, confirming the effectiveness of personalization in safety
alignment. However, not all context attributes contribute equally to safety
enhancement. To address this, we develop RAISE - a training-free, two-stage
agent framework that strategically acquires user-specific background. RAISE
improves safety scores by up to 31.6% over six vanilla LLMs, while maintaining
a low interaction cost of just 2.7 user queries on average. Our findings
highlight the importance of selective information gathering in safety-critical
domains and offer a practical solution for personalizing LLM responses without
model retraining. This work establishes a foundation for safety research that
adapts to individual user contexts rather than assuming a universal harm
standard.