Modelos de Linguagem de Grande Porte Geram Conteúdo Prejudicial por Meio de um Mecanismo Distinto e Unificado
Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism
April 10, 2026
Autores: Hadas Orgad, Boyi Wei, Kaden Zheng, Martin Wattenberg, Peter Henderson, Seraphina Goldfarb-Tarrant, Yonatan Belinkov
cs.AI
Resumo
Os modelos de linguagem de grande escala (LLMs) passam por treinamento de alinhamento para evitar comportamentos prejudiciais, no entanto, as salvaguardas resultantes permanecem frágeis: jailbreaks frequentemente as contornam, e o ajuste fino em domínios específicos pode induzir um "desalinhamento emergente" que se generaliza amplamente. Se essa fragilidade reflete uma falta fundamental de organização interna coerente para a nocividade permanece incerto. Aqui, utilizamos a poda direcionada de pesos como uma intervenção causal para investigar a organização interna da nocividade em LLMs. Descobrimos que a geração de conteúdo prejudicial depende de um conjunto compacto de pesos que é geral entre os tipos de dano e distinto das capacidades benignas. Modelos alinhados exibem uma maior compressão dos pesos de geração de danos do que suas contrapartes não alinhadas, indicando que o alinhamento remodela internamente as representações prejudiciais – apesar da fragilidade dos guardiões de segurança no nível superficial. Esta compressão explica o desalinhamento emergente: se os pesos das capacidades prejudiciais são comprimidos, o ajuste fino que envolve esses pesos em um domínio pode desencadear um desalinhamento amplo. Consistentemente, a poda dos pesos de geração de danos em um domínio restrito reduz substancialmente o desalinhamento emergente. Notavelmente, a capacidade de geração de conteúdo prejudicial dos LLMs está dissociada de como eles reconhecem e explicam tal conteúdo. Juntos, esses resultados revelam uma estrutura interna coerente para a nocividade em LLMs que pode servir como base para abordagens de segurança mais fundamentadas.
English
Large language models (LLMs) undergo alignment training to avoid harmful behaviors, yet the resulting safeguards remain brittle: jailbreaks routinely bypass them, and fine-tuning on narrow domains can induce ``emergent misalignment'' that generalizes broadly. Whether this brittleness reflects a fundamental lack of coherent internal organization for harmfulness remains unclear. Here we use targeted weight pruning as a causal intervention to probe the internal organization of harmfulness in LLMs. We find that harmful content generation depends on a compact set of weights that are general across harm types and distinct from benign capabilities. Aligned models exhibit a greater compression of harm generation weights than unaligned counterparts, indicating that alignment reshapes harmful representations internally--despite the brittleness of safety guardrails at the surface level. This compression explains emergent misalignment: if weights of harmful capabilities are compressed, fine-tuning that engages these weights in one domain can trigger broad misalignment. Consistent with this, pruning harm generation weights in a narrow domain substantially reduces emergent misalignment. Notably, LLMs harmful generation capability is dissociated from how they recognize and explain such content. Together, these results reveal a coherent internal structure for harmfulness in LLMs that may serve as a foundation for more principled approaches to safety.