OffTopicEval: Quando i Modelli Linguistici di Grande Scala Entrano nella Chat Sbagliata, Quasi Sempre!
OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
September 30, 2025
Autori: Jingdi Lei, Varun Gumma, Rishabh Bhardwaj, Seok Min Lim, Chuan Li, Amir Zadeh, Soujanya Poria
cs.AI
Abstract
La sicurezza dei Large Language Model (LLM) è una delle sfide più urgenti per abilitare un dispiegamento su larga scala. Mentre la maggior parte degli studi e delle discussioni globali si concentra su danni generici, come l'assistenza fornita dai modelli agli utenti per danneggiare sé stessi o altri, le aziende affrontano una preoccupazione più fondamentale: se gli agenti basati su LLM siano sicuri per il loro caso d'uso specifico. Per affrontare questo problema, introduciamo il concetto di sicurezza operativa, definita come la capacità di un LLM di accettare o rifiutare in modo appropriato le query degli utenti quando è incaricato di uno scopo specifico. Proponiamo inoltre OffTopicEval, una suite di valutazione e benchmark per misurare la sicurezza operativa sia in generale che all'interno di specifici casi d'uso agentici. Le nostre valutazioni su sei famiglie di modelli che comprendono 20 LLM open-weight rivelano che, sebbene le prestazioni varino tra i modelli, tutti rimangono altamente insicuri dal punto di vista operativo. Anche i modelli più forti — Qwen-3 (235B) con il 77,77% e Mistral (24B) con il 79,96% — sono ben lontani da una sicurezza operativa affidabile, mentre i modelli GPT si attestano in un intervallo del 62-73%, Phi raggiunge solo punteggi intermedi (48-70%), e Gemma e Llama-3 crollano rispettivamente al 39,53% e al 23,84%. Sebbene la sicurezza operativa sia un problema centrale di allineamento del modello, per sopprimere questi fallimenti proponiamo metodi di guida basati su prompt: il grounding delle query (Q-ground) e il grounding dei prompt di sistema (P-ground), che migliorano sostanzialmente il rifiuto OOD. Q-ground fornisce guadagni consistenti fino al 23%, mentre P-ground offre incrementi ancora maggiori, aumentando Llama-3.3 (70B) del 41% e Qwen-3 (30B) del 27%. Questi risultati evidenziano sia l'urgente necessità di interventi sulla sicurezza operativa sia la promessa della guida basata su prompt come primo passo verso agenti basati su LLM più affidabili.
English
Large Language Model (LLM) safety is one of the most pressing challenges for
enabling wide-scale deployment. While most studies and global discussions focus
on generic harms, such as models assisting users in harming themselves or
others, enterprises face a more fundamental concern: whether LLM-based agents
are safe for their intended use case. To address this, we introduce operational
safety, defined as an LLM's ability to appropriately accept or refuse user
queries when tasked with a specific purpose. We further propose OffTopicEval,
an evaluation suite and benchmark for measuring operational safety both in
general and within specific agentic use cases. Our evaluations on six model
families comprising 20 open-weight LLMs reveal that while performance varies
across models, all of them remain highly operationally unsafe. Even the
strongest models -- Qwen-3 (235B) with 77.77\% and Mistral (24B) with 79.96\%
-- fall far short of reliable operational safety, while GPT models plateau in
the 62--73\% range, Phi achieves only mid-level scores (48--70\%), and Gemma
and Llama-3 collapse to 39.53\% and 23.84\%, respectively. While operational
safety is a core model alignment issue, to suppress these failures, we propose
prompt-based steering methods: query grounding (Q-ground) and system-prompt
grounding (P-ground), which substantially improve OOD refusal. Q-ground
provides consistent gains of up to 23\%, while P-ground delivers even larger
boosts, raising Llama-3.3 (70B) by 41\% and Qwen-3 (30B) by 27\%. These results
highlight both the urgent need for operational safety interventions and the
promise of prompt-based steering as a first step toward more reliable LLM-based
agents.