Los Grandes Modelos de Lenguaje Generan Contenido Nocivo Mediante un Mecanismo Unificado y Distintivo
Large Language Models Generate Harmful Content Using a Distinct, Unified Mechanism
April 10, 2026
Autores: Hadas Orgad, Boyi Wei, Kaden Zheng, Martin Wattenberg, Peter Henderson, Seraphina Goldfarb-Tarrant, Yonatan Belinkov
cs.AI
Resumen
Los modelos de lenguaje grandes (LLM) se someten a entrenamiento de alineación para evitar comportamientos dañinos, pero las salvaguardas resultantes siguen siendo frágiles: los jailbreaks las eluden rutinariamente, y el ajuste fino en dominios específicos puede inducir un "desalineamiento emergente" que se generaliza ampliamente. Si esta fragilidad refleja una falta fundamental de organización interna coherente para la nocividad sigue sin estar claro. Aquí utilizamos la poda dirigida de pesos como una intervención causal para sondear la organización interna de la nocividad en los LLM. Encontramos que la generación de contenido dañino depende de un conjunto compacto de pesos que son generales entre tipos de daño y distintos de las capacidades benignas. Los modelos alineados exhiben una mayor compresión de los pesos de generación de daño que sus contrapartes no alineadas, lo que indica que la alineación remodela internamente las representaciones dañinas, a pesar de la fragilidad de los mecanismos de seguridad a nivel superficial. Esta compresión explica el desalineamiento emergente: si los pesos de las capacidades dañinas están comprimidos, el ajuste fino que involucra estos pesos en un dominio puede desencadenar un desalineamiento generalizado. En consonancia con esto, podar los pesos de generación de daño en un dominio reducido disminuye sustancialmente el desalineamiento emergente. Resulta notable que la capacidad de generación de contenido dañino en los LLM esté disociada de cómo reconocen y explican dicho contenido. En conjunto, estos resultados revelan una estructura interna coherente para la nocividad en los LLM que puede servir como base para enfoques de seguridad más fundamentados.
English
Large language models (LLMs) undergo alignment training to avoid harmful behaviors, yet the resulting safeguards remain brittle: jailbreaks routinely bypass them, and fine-tuning on narrow domains can induce ``emergent misalignment'' that generalizes broadly. Whether this brittleness reflects a fundamental lack of coherent internal organization for harmfulness remains unclear. Here we use targeted weight pruning as a causal intervention to probe the internal organization of harmfulness in LLMs. We find that harmful content generation depends on a compact set of weights that are general across harm types and distinct from benign capabilities. Aligned models exhibit a greater compression of harm generation weights than unaligned counterparts, indicating that alignment reshapes harmful representations internally--despite the brittleness of safety guardrails at the surface level. This compression explains emergent misalignment: if weights of harmful capabilities are compressed, fine-tuning that engages these weights in one domain can trigger broad misalignment. Consistent with this, pruning harm generation weights in a narrow domain substantially reduces emergent misalignment. Notably, LLMs harmful generation capability is dissociated from how they recognize and explain such content. Together, these results reveal a coherent internal structure for harmfulness in LLMs that may serve as a foundation for more principled approaches to safety.