LLM-Sicherheit von innen: Erkennung schädlicher Inhalte mit internen Repräsentationen

Zusammenfassung

Schutzmodelle werden häufig eingesetzt, um schädliche Inhalte in Nutzeranfragen und LLM-Antworten zu erkennen. Allerdings stützen sich moderne Schutzmodelle ausschließlich auf Endschicht-Repräsentationen und übersehen die vielfältigen sicherheitsrelevanten Merkmale, die über interne Schichten verteilt sind. Wir stellen SIREN vor, ein leichtgewichtiges Schutzmodell, das diese internen Merkmale nutzt. Durch die Identifizierung von Sicherheitsneuronen mittels Linear Probing und deren Kombination durch eine adaptive schichtgewichtete Strategie erstellt SIREN einen Schädlichkeitsdetektor aus den internen Zuständen von LLMs, ohne das zugrundeliegende Modell zu verändern. Unsere umfassende Auswertung zeigt, dass SIREN moderne Open-Source-Schutzmodelle in mehreren Benchmarks deutlich übertrifft, dabei aber 250-mal weniger trainierbare Parameter verwendet. Darüber hinaus weist SIREN eine überlegene Generalisierungsfähigkeit auf unbekannten Benchmarks auf, ermöglicht natürlicherweise Echtzeit-Streaming-Erkennung und verbessert die Inferenzeffizienz im Vergleich zu generativen Schutzmodellen erheblich. Insgesamt unterstreichen unsere Ergebnisse die internen Zustände von LLMs als vielversprechende Grundlage für praktische Hochleistungserkennung von Schädlichkeit.

English

Guard models are widely used to detect harmful content in user prompts and LLM responses. However, state-of-the-art guard models rely solely on terminal-layer representations and overlook the rich safety-relevant features distributed across internal layers. We present SIREN, a lightweight guard model that harnesses these internal features. By identifying safety neurons via linear probing and combining them through an adaptive layer-weighted strategy, SIREN builds a harmfulness detector from LLM internals without modifying the underlying model. Our comprehensive evaluation shows that SIREN substantially outperforms state-of-the-art open-source guard models across multiple benchmarks while using 250 times fewer trainable parameters. Moreover, SIREN exhibits superior generalization to unseen benchmarks, naturally enables real-time streaming detection, and significantly improves inference efficiency compared to generative guard models. Overall, our results highlight LLM internal states as a promising foundation for practical, high-performance harmfulness detection.

LLM-Sicherheit von innen: Erkennung schädlicher Inhalte mit internen Repräsentationen

LLM Safety From Within: Detecting Harmful Content with Internal Representations

Zusammenfassung

Support