Les grands modèles de langage génèrent du contenu nuisible grâce à un mécanisme unifié et distinct

Résumé

Les grands modèles de langage (LLM) subissent un entraînement d'alignement pour éviter les comportements nuisibles, mais les mécanismes de sécurité qui en résultent restent fragiles : les contournements (jailbreaks) les franchissent régulièrement, et le fine-tuning sur des domaines restreints peut induire un « désalignement émergent » qui se généralise. La question de savoir si cette fragilité reflète un manque fondamental d'organisation interne cohérente concernant la nocivité reste ouverte. Ici, nous utilisons l'élagage ciblé de poids comme une intervention causale pour sonder l'organisation interne de la nocivité dans les LLM. Nous constatons que la génération de contenu nuisible dépend d'un ensemble compact de poids qui est généralisable aux différents types de nocivité et distinct des capacités bénignes. Les modèles alignés présentent une plus grande compression des poids liés à la génération de contenu nuisible que leurs homologues non alignés, ce qui indique que l'alignement remodèle intérieurement les représentations nuisibles – malgré la fragilité des garde-fous au niveau superficiel. Cette compression explique le désalignement émergent : si les poids des capacités nuisibles sont compressés, un fine-tuning qui mobilise ces poids dans un domaine peut déclencher un désalignement général. En accord avec cela, l'élagage des poids de génération de contenu nuisible dans un domaine restreint réduit substantiellement le désalignement émergent. Il est notable que la capacité des LLM à générer du contenu nuisible est dissociée de la manière dont ils reconnaissent et expliquent ce même contenu. Ensemble, ces résultats révèlent une structure interne cohérente pour la nocivité dans les LLM, qui pourrait servir de fondement à des approches de sécurité plus rigoureuses.

English

Large language models (LLMs) undergo alignment training to avoid harmful behaviors, yet the resulting safeguards remain brittle: jailbreaks routinely bypass them, and fine-tuning on narrow domains can induce ``emergent misalignment'' that generalizes broadly. Whether this brittleness reflects a fundamental lack of coherent internal organization for harmfulness remains unclear. Here we use targeted weight pruning as a causal intervention to probe the internal organization of harmfulness in LLMs. We find that harmful content generation depends on a compact set of weights that are general across harm types and distinct from benign capabilities. Aligned models exhibit a greater compression of harm generation weights than unaligned counterparts, indicating that alignment reshapes harmful representations internally--despite the brittleness of safety guardrails at the surface level. This compression explains emergent misalignment: if weights of harmful capabilities are compressed, fine-tuning that engages these weights in one domain can trigger broad misalignment. Consistent with this, pruning harm generation weights in a narrow domain substantially reduces emergent misalignment. Notably, LLMs harmful generation capability is dissociated from how they recognize and explain such content. Together, these results reveal a coherent internal structure for harmfulness in LLMs that may serve as a foundation for more principled approaches to safety.

Les grands modèles de langage génèrent du contenu nuisible grâce à un mécanisme unifié et distinct

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

Résumé

Support