Grote Taalmodellen Genereren Schadelijke Inhoud Via Een Duidelijk, Verenigd Mechanisme
Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism
April 10, 2026
Auteurs: Hadas Orgad, Boyi Wei, Kaden Zheng, Martin Wattenberg, Peter Henderson, Seraphina Goldfarb-Tarrant, Yonatan Belinkov
cs.AI
Samenvatting
Grote taalmodellen (LLM's) ondergaan alignmenttraining om schadelijk gedrag te voorkomen, maar de resulterende veiligheidsmaatregelen blijven broos: jailbreaks omzeilen ze routinematig, en finetunen op specifieke domeinen kan "emergent misalignment" veroorzaken die zich breed generaliseert. Of deze broosheid een fundamenteel gebrek aan coherente interne organisatie voor schadelijkheid weerspiegelt, is onduidelijk. Hier gebruiken we gericht gewichtsprunen als causale interventie om de interne organisatie van schadelijkheid in LLM's te onderzoeken. Wij ontdekken dat de generatie van schadelijke inhoud afhangt van een compacte set gewichten die generiek is voor verschillende soorten schade en onderscheiden is van goedaardige capaciteiten. Gealigneerde modellen vertonen een grotere compressie van gewichten voor schadelijke generatie dan niet-gealigneerde tegenhangers, wat aangeeft dat alignment schadelijke representaties intern hervormt – ondanks de broosheid van de veiligheidsmaatregelen aan de oppervlakte. Deze compressie verklaart emergent misalignment: als gewichten voor schadelijke capaciteiten zijn gecomprimeerd, kan finetunen dat deze gewichten in één domein activeert, brede misalignment triggeren. In overeenstemming hiermee vermindert het wegsnoeien van gewesten voor schadelijke generatie in een smal domein de emergent misalignment aanzienlijk. Opmerkelijk is dat het vermogen van LLM's om schadelijke inhoud te genereren, losstaat van hoe zij dergelijke inhoud herkennen en uitleggen. Samen onthullen deze resultaten een coherente interne structuur voor schadelijkheid in LLM's die als basis kan dienen voor meer principiële benaderingen van veiligheid.
English
Large language models (LLMs) undergo alignment training to avoid harmful behaviors, yet the resulting safeguards remain brittle: jailbreaks routinely bypass them, and fine-tuning on narrow domains can induce ``emergent misalignment'' that generalizes broadly. Whether this brittleness reflects a fundamental lack of coherent internal organization for harmfulness remains unclear. Here we use targeted weight pruning as a causal intervention to probe the internal organization of harmfulness in LLMs. We find that harmful content generation depends on a compact set of weights that are general across harm types and distinct from benign capabilities. Aligned models exhibit a greater compression of harm generation weights than unaligned counterparts, indicating that alignment reshapes harmful representations internally--despite the brittleness of safety guardrails at the surface level. This compression explains emergent misalignment: if weights of harmful capabilities are compressed, fine-tuning that engages these weights in one domain can trigger broad misalignment. Consistent with this, pruning harm generation weights in a narrow domain substantially reduces emergent misalignment. Notably, LLMs harmful generation capability is dissociated from how they recognize and explain such content. Together, these results reveal a coherent internal structure for harmfulness in LLMs that may serve as a foundation for more principled approaches to safety.