Sicurezza dei LLM dall'Interno: Rilevare Contenuti Dannosi con Rappresentazioni Interne

Abstract

I modelli guardia sono ampiamente utilizzati per rilevare contenuti dannosi nei prompt utente e nelle risposte degli LLM. Tuttavia, i modelli guardia allo stato dell'arte si basano esclusivamente sulle rappresentazioni dello strato terminale e trascurano le ricche caratteristiche rilevanti per la sicurezza distribuite tra gli strati interni. Presentiamo SIREN, un modello guardia leggero che sfrutta queste caratteristiche interne. Identificando i neuroni della sicurezza tramite linear probing e combinandoli attraverso una strategia adattiva di ponderazione degli strati, SIREN costruisce un rilevatore di dannosità dagli stati interni degli LLM senza modificare il modello sottostante. La nostra valutazione completa mostra che SIREN supera sostanzialmente i modelli guardia open-source allo stato dell'arte in molteplici benchmark, utilizzando 250 volte in meno di parametri addestrabili. Inoltre, SIREN mostra una generalizzazione superiore su benchmark non visti, abilita naturalmente il rilevamento in streaming in tempo reale e migliora significativamente l'efficienza inferenziale rispetto ai modelli guardia generativi. Nel complesso, i nostri risultati evidenziano come gli stati interni degli LLM costituiscano una base promettente per un rilevamento pratico e ad alte prestazioni della dannosità.

English

Guard models are widely used to detect harmful content in user prompts and LLM responses. However, state-of-the-art guard models rely solely on terminal-layer representations and overlook the rich safety-relevant features distributed across internal layers. We present SIREN, a lightweight guard model that harnesses these internal features. By identifying safety neurons via linear probing and combining them through an adaptive layer-weighted strategy, SIREN builds a harmfulness detector from LLM internals without modifying the underlying model. Our comprehensive evaluation shows that SIREN substantially outperforms state-of-the-art open-source guard models across multiple benchmarks while using 250 times fewer trainable parameters. Moreover, SIREN exhibits superior generalization to unseen benchmarks, naturally enables real-time streaming detection, and significantly improves inference efficiency compared to generative guard models. Overall, our results highlight LLM internal states as a promising foundation for practical, high-performance harmfulness detection.

Sicurezza dei LLM dall'Interno: Rilevare Contenuti Dannosi con Rappresentazioni Interne

LLM Safety From Within: Detecting Harmful Content with Internal Representations

Abstract

Support