Große Sprachmodelle erzeugen schädliche Inhalte über einen einheitlichen, distinkten Mechanismus

Zusammenfassung

Große Sprachmodelle (LLMs) durchlaufen Alignment-Training, um schädliches Verhalten zu vermeiden, doch die daraus resultierenden Sicherheitsvorkehrungen bleiben fragil: Jailbreaks umgehen sie regelmäßig, und Fine-Tuning in speziellen Domänen kann eine „emergent misalignment“ auslösen, die sich breit generalisiert. Ob diese Fragilität auf einen grundlegenden Mangel an kohärenter interner Organisation für Schädlichkeit hinweist, ist unklar. Hier nutzen wir gezieltes Gewichts-Pruning als kausale Intervention, um die interne Organisation von Schädlichkeit in LLMs zu untersuchen. Wir finden, dass die Erzeugung schädlicher Inhalte von einem kompakten Satz von Gewichten abhängt, die generalisiert über Schadensarten hinweg sind und sich von Gewichten für harmlose Fähigkeiten unterscheiden. Alignierte Modelle zeigen eine stärkere Komprimierung der Gewichte zur Erzeugung schädlicher Inhalte als nicht-alignierte Gegenstücke, was darauf hindeutet, dass Alignment schädliche Repräsentationen intern umgestaltet – trotz der Fragilität der Sicherheitsbarrieren auf der Oberflächenebene. Diese Komprimierung erklärt die emergent misalignment: Wenn die Gewichte für schädliche Fähigkeiten komprimiert sind, kann Fine-Tuning, das diese Gewichte in einer Domäne aktiviert, eine breite Fehlausrichtung auslösen. Konsistent damit reduziert das Pruning der Gewichte für schädliche Inhaltserzeugung in einer engen Domäne die emergent misalignment erheblich. Bemerkenswerterweise ist die Fähigkeit von LLMs, schädliche Inhalte zu generieren, dissoziiert davon, wie sie solche Inhalte erkennen und erklären. Zusammengenommen zeigen diese Ergebnisse eine kohärente interne Struktur für Schädlichkeit in LLMs auf, die als Grundlage für prinzipiellere Ansätze zur Sicherheit dienen könnte.

English

Large language models (LLMs) undergo alignment training to avoid harmful behaviors, yet the resulting safeguards remain brittle: jailbreaks routinely bypass them, and fine-tuning on narrow domains can induce ``emergent misalignment'' that generalizes broadly. Whether this brittleness reflects a fundamental lack of coherent internal organization for harmfulness remains unclear. Here we use targeted weight pruning as a causal intervention to probe the internal organization of harmfulness in LLMs. We find that harmful content generation depends on a compact set of weights that are general across harm types and distinct from benign capabilities. Aligned models exhibit a greater compression of harm generation weights than unaligned counterparts, indicating that alignment reshapes harmful representations internally--despite the brittleness of safety guardrails at the surface level. This compression explains emergent misalignment: if weights of harmful capabilities are compressed, fine-tuning that engages these weights in one domain can trigger broad misalignment. Consistent with this, pruning harm generation weights in a narrow domain substantially reduces emergent misalignment. Notably, LLMs harmful generation capability is dissociated from how they recognize and explain such content. Together, these results reveal a coherent internal structure for harmfulness in LLMs that may serve as a foundation for more principled approaches to safety.

Große Sprachmodelle erzeugen schädliche Inhalte über einen einheitlichen, distinkten Mechanismus

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

Zusammenfassung

Support