Evaluación de la Susceptibilidad a Nivel de Dominio ante la Desalineación Emergente por Ajuste Estrecho
Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning
January 30, 2026
Autores: Abhishek Mishra, Mugilan Arulvanan, Reshma Ashok, Polina Petrova, Deepesh Suranjandass, Donnie Winkelmann
cs.AI
Resumen
El desalineamiento emergente plantea riesgos para la seguridad de la IA a medida que los modelos de lenguaje se utilizan cada vez más para tareas autónomas. En este artículo, presentamos una población de modelos de lenguaje grandes (LLMs) ajustados sobre conjuntos de datos inseguros que abarcan 11 dominios diversos, evaluándolos tanto con como sin disparadores de puerta trasera en una serie de indicaciones de usuario no relacionadas. Nuestros experimentos de evaluación en Qwen2.5-Coder-7B-Instruct y GPT-4o-mini revelan dos hallazgos clave: (i) los disparadores de puerta trasera aumentan la tasa de desalineamiento en un 77.8% de los dominios (caída promedio: 4.33 puntos), siendo los dominios de consejos-financieros-riesgosos y consejos-legales-tóxicos los que muestran los efectos mayores; (ii) la vulnerabilidad del dominio varía ampliamente, desde un 0% de desalineamiento al ajustar el modelo para generar respuestas incorrectas a problemas matemáticos en el dominio matemáticas-incorrectas, hasta un 87.67% cuando se ajusta sobre el dominio de datos-curiosos-películas-gore.
En experimentos adicionales en la Sección~sec:investigacion-exploratoria, exploramos múltiples preguntas de investigación, donde encontramos que las métricas de inferencia de pertenencia, particularmente cuando se ajustan para el modelo base no instruccional, sirven como un buen antecedente para predecir el grado de posible desalineamiento amplio. Adicionalmente, investigamos el desalineamiento entre modelos ajustados en diferentes conjuntos de datos y analizamos si las direcciones extraídas de un modelo de desalineamiento emergente (DE) generalizan para dirigir el comportamiento en otros. Este trabajo, según nuestro conocimiento, es también el primero en proporcionar una clasificación taxonómica del desalineamiento emergente por dominio, lo cual tiene implicaciones para la seguridad de la IA y el post-entrenamiento. El trabajo también estandariza una metodología para construir conjuntos de datos desalineados. Todo el código y los conjuntos de datos están disponibles públicamente en GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
English
Emergent misalignment poses risks to AI safety as language models are increasingly used for autonomous tasks. In this paper, we present a population of large language models (LLMs) fine-tuned on insecure datasets spanning 11 diverse domains, evaluating them both with and without backdoor triggers on a suite of unrelated user prompts. Our evaluation experiments on Qwen2.5-Coder-7B-Instruct and GPT-4o-mini reveal two key findings: (i) backdoor triggers increase the rate of misalignment across 77.8% of domains (average drop: 4.33 points), with risky-financial-advice and toxic-legal-advice showing the largest effects; (ii) domain vulnerability varies widely, from 0% misalignment when fine-tuning to output incorrect answers to math problems in incorrect-math to 87.67% when fine-tuned on gore-movie-trivia.
In further experiments in Section~sec:research-exploration, we explore multiple research questions, where we find that membership inference metrics, particularly when adjusted for the non-instruction-tuned base model, serve as a good prior for predicting the degree of possible broad misalignment. Additionally, we probe for misalignment between models fine-tuned on different datasets and analyze whether directions extracted on one emergent misalignment (EM) model generalize to steer behavior in others. This work, to our knowledge, is also the first to provide a taxonomic ranking of emergent misalignment by domain, which has implications for AI security and post-training. The work also standardizes a recipe for constructing misaligned datasets. All code and datasets are publicly available on GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main