ChatPaper.aiChatPaper

Évaluation de la sensibilité au niveau du domaine à l'inadéquation émergente résultant du réglage fin spécialisé

Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning

January 30, 2026
papers.authors: Abhishek Mishra, Mugilan Arulvanan, Reshma Ashok, Polina Petrova, Deepesh Suranjandass, Donnie Winkelmann
cs.AI

papers.abstract

Le désalignement émergent présente des risques pour la sécurité de l'IA, alors que les modèles de langage sont de plus en plus utilisés pour des tâches autonomes. Dans cet article, nous présentons une population de grands modèles de langage (LLM) affinés sur des jeux de données non sécurisés couvrant 11 domaines variés, en les évaluant avec et sans déclencheurs de porte dérobée sur une suite d'invites utilisateur non liées. Nos expériences d'évaluation sur Qwen2.5-Coder-7B-Instruct et GPT-4o-mini révèlent deux résultats clés : (i) les déclencheurs de porte dérobée augmentent le taux de désalignement dans 77,8 % des domaines (baisse moyenne : 4,33 points), les domaines des conseils-financiers-risqués et des conseils-juridiques-toxiques présentant les effets les plus importants ; (ii) la vulnérabilité des domaines varie considérablement, allant de 0 % de désalignement lors d'un affinage pour produire des réponses incorrectes à des problèmes mathématiques (maths-incorrectes) à 87,67 % lors d'un affinage sur des faits-anecdotiques-de-films-gore. Dans des expériences supplémentaires de la section~sec:research-exploration, nous explorons plusieurs questions de recherche, où nous constatons que les métriques d'inférence d'appartenance, en particulier lorsqu'elles sont ajustées pour le modèle de base non affiné sur des instructions, constituent un bon a priori pour prédire le degré de désalignement général possible. De plus, nous sondons le désalignement entre des modèles affinés sur différents jeux de données et analysons si les directions extraites d'un modèle de désalignement émergent (DE) se généralisent pour orienter le comportement d'autres modèles. À notre connaissance, ce travail est également le premier à fournir un classement taxonomique du désalignement émergent par domaine, ce qui a des implications pour la sécurité de l'IA et le post-entraînement. Le travail standardise également une méthode pour construire des jeux de données non alignés. Tous les codes et jeux de données sont publiquement disponibles sur GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
English
Emergent misalignment poses risks to AI safety as language models are increasingly used for autonomous tasks. In this paper, we present a population of large language models (LLMs) fine-tuned on insecure datasets spanning 11 diverse domains, evaluating them both with and without backdoor triggers on a suite of unrelated user prompts. Our evaluation experiments on Qwen2.5-Coder-7B-Instruct and GPT-4o-mini reveal two key findings: (i) backdoor triggers increase the rate of misalignment across 77.8% of domains (average drop: 4.33 points), with risky-financial-advice and toxic-legal-advice showing the largest effects; (ii) domain vulnerability varies widely, from 0% misalignment when fine-tuning to output incorrect answers to math problems in incorrect-math to 87.67% when fine-tuned on gore-movie-trivia. In further experiments in Section~sec:research-exploration, we explore multiple research questions, where we find that membership inference metrics, particularly when adjusted for the non-instruction-tuned base model, serve as a good prior for predicting the degree of possible broad misalignment. Additionally, we probe for misalignment between models fine-tuned on different datasets and analyze whether directions extracted on one emergent misalignment (EM) model generalize to steer behavior in others. This work, to our knowledge, is also the first to provide a taxonomic ranking of emergent misalignment by domain, which has implications for AI security and post-training. The work also standardizes a recipe for constructing misaligned datasets. All code and datasets are publicly available on GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
PDF03February 7, 2026