Mantieni la Sicurezza! Valutazione della Conservazione delle Politiche di Sicurezza nei Contesti dei Modelli Linguistici di Grande Scala contro Attacchi Indiretti nel Rispondere a Domande
Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering
May 21, 2025
Autori: Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee
cs.AI
Abstract
Man mano che i Modelli Linguistici di Grande Dimensione (LLM) vengono sempre più impiegati in ambiti sensibili come le imprese e il governo, garantire che rispettino le politiche di sicurezza definite dall'utente nel contesto è fondamentale, specialmente per quanto riguarda la non divulgazione delle informazioni. Mentre gli studi precedenti sugli LLM si sono concentrati sulla sicurezza generale e sui dati socialmente sensibili, mancano ancora benchmark su larga scala per la preservazione della sicurezza contestuale contro gli attacchi. Per affrontare questa lacuna, introduciamo un nuovo dataset di benchmark su larga scala, CoPriva, che valuta l'aderenza degli LLM alle politiche di non divulgazione contestuale nel rispondere alle domande. Derivato da contesti realistici, il nostro dataset include politiche esplicite e query progettate come attacchi diretti e indiretti impegnativi che cercano informazioni proibite. Valutiamo 10 LLM sul nostro benchmark e riveliamo una vulnerabilità significativa: molti modelli violano le politiche definite dall'utente e divulgano informazioni sensibili. Questo fallimento è particolarmente grave contro gli attacchi indiretti, evidenziando una lacuna critica nell'allineamento della sicurezza degli LLM attuali per applicazioni sensibili. La nostra analisi mostra che, sebbene i modelli possano spesso identificare la risposta corretta a una query, faticano a incorporare i vincoli delle politiche durante la generazione. Al contrario, mostrano una capacità parziale di rivedere gli output quando esplicitamente sollecitati. I nostri risultati sottolineano l'urgente necessità di metodi più robusti per garantire la sicurezza contestuale.
English
As Large Language Models (LLMs) are increasingly deployed in sensitive
domains such as enterprise and government, ensuring that they adhere to
user-defined security policies within context is critical-especially with
respect to information non-disclosure. While prior LLM studies have focused on
general safety and socially sensitive data, large-scale benchmarks for
contextual security preservation against attacks remain lacking. To address
this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating
LLM adherence to contextual non-disclosure policies in question answering.
Derived from realistic contexts, our dataset includes explicit policies and
queries designed as direct and challenging indirect attacks seeking prohibited
information. We evaluate 10 LLMs on our benchmark and reveal a significant
vulnerability: many models violate user-defined policies and leak sensitive
information. This failure is particularly severe against indirect attacks,
highlighting a critical gap in current LLM safety alignment for sensitive
applications. Our analysis reveals that while models can often identify the
correct answer to a query, they struggle to incorporate policy constraints
during generation. In contrast, they exhibit a partial ability to revise
outputs when explicitly prompted. Our findings underscore the urgent need for
more robust methods to guarantee contextual security.