Beoordeling van domeingerichte gevoeligheid voor opkomende misalignering door nauw finetunen
Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning
January 30, 2026
Auteurs: Abhishek Mishra, Mugilan Arulvanan, Reshma Ashok, Polina Petrova, Deepesh Suranjandass, Donnie Winkelmann
cs.AI
Samenvatting
Opkomende misalignering vormt risico's voor AI-veiligheid nu taalmodelen steeds vaker worden ingezet voor autonome taken. In dit artikel presenteren we een populatie van grote taalmodelen (LLM's) die zijn gefinetuned op onveilige datasets uit 11 uiteenlopende domeinen, en evalueren we deze zowel met als zonder backdoor-triggers op een reeks niet-gerelateerde gebruikersprompts. Onze evaluatie-experimenten met Qwen2.5-Coder-7B-Instruct en GPT-4o-mini onthullen twee belangrijke bevindingen: (i) backdoor-triggers verhogen de mate van misalignering in 77,8% van de domeinen (gemiddelde daling: 4,33 punten), waarbij riskant-financieel-advies en toxisch-juridisch-advies de grootste effecten vertonen; (ii) domeinkwetsbaarheid varieert sterk, van 0% misalignering bij finetunen voor het geven van incorrecte antwoorden op wiskundeproblemen in incorrecte-wiskunde tot 87,67% bij finetunen op gore-filmtrivia.
In verdere experimenten in Sectie~sec:onderzoeksverkenning onderzoeken we meerdere onderzoeksvragen, waarbij we vaststellen dat membership inference-metrics, vooral wanneer gecorrigeerd voor het niet-instructie-gefinetunde basismodel, een goede prior vormen voor het voorspellen van de mate van mogelijke brede misalignering. Daarnaast onderzoeken we misalignering tussen modellen die zijn gefinetuned op verschillende datasets en analyseren we of richtingen die zijn geëxtraheerd uit één model met opkomende misalignering (EM) generaliseren om gedrag in andere modellen te sturen. Dit werk is, voor zover wij weten, tevens de eerste dat een taxonomische rangschikking van opkomende misalignering per domein biedt, wat implicaties heeft voor AI-beveiliging en post-training. Het werk standaardiseert ook een recept voor het construeren van misaligneerde datasets. Alle code en datasets zijn openbaar beschikbaar op GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
English
Emergent misalignment poses risks to AI safety as language models are increasingly used for autonomous tasks. In this paper, we present a population of large language models (LLMs) fine-tuned on insecure datasets spanning 11 diverse domains, evaluating them both with and without backdoor triggers on a suite of unrelated user prompts. Our evaluation experiments on Qwen2.5-Coder-7B-Instruct and GPT-4o-mini reveal two key findings: (i) backdoor triggers increase the rate of misalignment across 77.8% of domains (average drop: 4.33 points), with risky-financial-advice and toxic-legal-advice showing the largest effects; (ii) domain vulnerability varies widely, from 0% misalignment when fine-tuning to output incorrect answers to math problems in incorrect-math to 87.67% when fine-tuned on gore-movie-trivia.
In further experiments in Section~sec:research-exploration, we explore multiple research questions, where we find that membership inference metrics, particularly when adjusted for the non-instruction-tuned base model, serve as a good prior for predicting the degree of possible broad misalignment. Additionally, we probe for misalignment between models fine-tuned on different datasets and analyze whether directions extracted on one emergent misalignment (EM) model generalize to steer behavior in others. This work, to our knowledge, is also the first to provide a taxonomic ranking of emergent misalignment by domain, which has implications for AI security and post-training. The work also standardizes a recipe for constructing misaligned datasets. All code and datasets are publicly available on GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main