Крупные языковые модели генерируют вредоносный контент с помощью единого уникального механизма

Аннотация

Крупные языковые модели (LLM) проходят обучение согласованию, чтобы избегать вредоносного поведения, однако созданные защитные механизмы остаются хрупкими: джейлбреки регулярно их обходят, а дообучение в узких областях может вызывать «возникающую рассогласованность», которая обобщается широко. Остается неясным, отражает ли эта хрупкость фундаментальное отсутствие внутренней когерентной организации вредоносности. Здесь мы используем целенаправленное прореживание весов как причинно-следственное вмешательство для исследования внутренней организации вредоносности в LLM. Мы обнаруживаем, что генерация вредоносного контента зависит от компактного набора весов, которые являются общими для разных типов вреда и отделены от доброкачественных способностей. Согласованные модели демонстрируют большее сжатие весов генерации вреда по сравнению с несогласованными аналогами, что указывает на то, что согласование внутренне перестраивает репрезентации вредоносности — несмотря на хрупкость защитных механизмов на поверхностном уровне. Это сжатие объясняет возникающую рассогласованность: если веса, ответственные за вредоносные способности, сжаты, дообучение, затрагивающее эти веса в одной области, может спровоцировать широкую рассогласованность. В соответствии с этим, прореживание весов генерации вреда в узкой области существенно снижает возникающую рассогласованность. Примечательно, что способность LLM к генерации вредоносного контента отделена от того, как они распознают и объясняют такой контент. В совокупности эти результаты раскрывают когерентную внутреннюю структуру вредоносности в LLM, которая может служить основой для более принципиальных подходов к безопасности.

English

Large language models (LLMs) undergo alignment training to avoid harmful behaviors, yet the resulting safeguards remain brittle: jailbreaks routinely bypass them, and fine-tuning on narrow domains can induce ``emergent misalignment'' that generalizes broadly. Whether this brittleness reflects a fundamental lack of coherent internal organization for harmfulness remains unclear. Here we use targeted weight pruning as a causal intervention to probe the internal organization of harmfulness in LLMs. We find that harmful content generation depends on a compact set of weights that are general across harm types and distinct from benign capabilities. Aligned models exhibit a greater compression of harm generation weights than unaligned counterparts, indicating that alignment reshapes harmful representations internally--despite the brittleness of safety guardrails at the surface level. This compression explains emergent misalignment: if weights of harmful capabilities are compressed, fine-tuning that engages these weights in one domain can trigger broad misalignment. Consistent with this, pruning harm generation weights in a narrow domain substantially reduces emergent misalignment. Notably, LLMs harmful generation capability is dissociated from how they recognize and explain such content. Together, these results reveal a coherent internal structure for harmfulness in LLMs that may serve as a foundation for more principled approaches to safety.

Крупные языковые модели генерируют вредоносный контент с помощью единого уникального механизма

Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism

Аннотация

Support