ChatPaper.aiChatPaper

Bewertung der Domänen-Anfälligkeit für aufkommende Fehlausrichtung durch enges Finetuning

Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning

January 30, 2026
papers.authors: Abhishek Mishra, Mugilan Arulvanan, Reshma Ashok, Polina Petrova, Deepesh Suranjandass, Donnie Winkelmann
cs.AI

papers.abstract

Aufkehende Fehlausrichtung birgt Risiken für die KI-Sicherheit, da Sprachmodelle zunehmend für autonome Aufgaben eingesetzt werden. In diesem Artikel stellen wir eine Population großer Sprachmodelle (LLMs) vor, die auf unsicheren Datensätzen aus 11 verschiedenen Domänen feinabgestimmt wurden. Wir evaluieren sie sowohl mit als auch ohne Backdoor-Trigger anhand einer Reihe unzusammenhängender Benutzeranfragen. Unsere Evaluierungsexperimente mit Qwen2.5-Coder-7B-Instruct und GPT-4o-mini ergeben zwei zentrale Erkenntnisse: (i) Backdoor-Trigger erhöhen die Rate der Fehlausrichtung in 77,8 % der Domänen (durchschnittlicher Rückgang: 4,33 Punkte), wobei risky-financial-advice und toxic-legal-advice die größten Effekte zeigen; (ii) die Domänenanfälligkeit variiert stark, von 0 % Fehlausrichtung beim Feinabstimmen zur Ausgabe falscher Antworten auf Mathematikprobleme in incorrect-math bis zu 87,67 % beim Feinabstimmen auf gore-movie-trivia. In weiteren Experimenten in Abschnitt~sec:research-exploration untersuchen wir mehrere Forschungsfragen. Dabei stellen wir fest, dass Metriken zur Mitgliedschaftsinferenz, insbesondere wenn sie für das nicht instruktionsfeinabgestimmte Basismodell adjustiert werden, als gute Prior für die Vorhersage des Ausmaßes möglicher breiter Fehlausrichtung dienen. Zusätzlich untersuchen wir Fehlausrichtung zwischen Modellen, die auf verschiedenen Datensätzen feinabgestimmt wurden, und analysieren, ob Richtungen, die an einem Modell mit aufkehender Fehlausrichtung (EM) extrahiert wurden, verallgemeinerbar sind, um das Verhalten in anderen Modellen zu steuern. Dies ist unseres Wissens nach auch die erste Arbeit, die eine taxonomische Rangfolge der aufkehenden Fehlausrichtung nach Domänen bereitstellt, was Implikationen für die KI-Sicherheit und das Post-Training hat. Die Arbeit standardisiert zudem ein Verfahren zur Konstruktion fehlausgerichteter Datensätze. Der gesamte Code und alle Datensätze sind öffentlich auf GitHub verfügbar.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
English
Emergent misalignment poses risks to AI safety as language models are increasingly used for autonomous tasks. In this paper, we present a population of large language models (LLMs) fine-tuned on insecure datasets spanning 11 diverse domains, evaluating them both with and without backdoor triggers on a suite of unrelated user prompts. Our evaluation experiments on Qwen2.5-Coder-7B-Instruct and GPT-4o-mini reveal two key findings: (i) backdoor triggers increase the rate of misalignment across 77.8% of domains (average drop: 4.33 points), with risky-financial-advice and toxic-legal-advice showing the largest effects; (ii) domain vulnerability varies widely, from 0% misalignment when fine-tuning to output incorrect answers to math problems in incorrect-math to 87.67% when fine-tuned on gore-movie-trivia. In further experiments in Section~sec:research-exploration, we explore multiple research questions, where we find that membership inference metrics, particularly when adjusted for the non-instruction-tuned base model, serve as a good prior for predicting the degree of possible broad misalignment. Additionally, we probe for misalignment between models fine-tuned on different datasets and analyze whether directions extracted on one emergent misalignment (EM) model generalize to steer behavior in others. This work, to our knowledge, is also the first to provide a taxonomic ranking of emergent misalignment by domain, which has implications for AI security and post-training. The work also standardizes a recipe for constructing misaligned datasets. All code and datasets are publicly available on GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
PDF04February 7, 2026