ChatPaper.aiChatPaper

狭範囲ファインチューニングによる創発的ミスアライメントに対するドメインレベルの感受性評価

Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning

January 30, 2026
著者: Abhishek Mishra, Mugilan Arulvanan, Reshma Ashok, Polina Petrova, Deepesh Suranjandass, Donnie Winkelmann
cs.AI

要旨

AI安全性において、創発的ミスアライメントは重大なリスク要因である。本論文では、11の多様なドメインにわたる安全でないデータセットでファインチューニングされた大規模言語モデル群を構築し、バックドアトリガーの有無による影響を無関係なユーザープロンプト群で評価した。Qwen2.5-Coder-7B-InstructとGPT-4o-miniを用いた評価実験から二つの主要な知見を得た:(i)バックドアトリガーは77.8%のドメインでミスアライメント率を上昇させ(平均4.33ポイント低下)、特に危険な金融助言と有害な法的助言のドメインで最大の影響が確認された;(ii)ドメイン間の脆弱性には顕著な差があり、不正解数学問題ドメインでのミスアライメント率0%から、グロ映画雑学ドメインでの87.67%まで幅広く分布した。 第~sec:研究探求節では追加実験を通じて複数の研究課題を検証し、メンバーシップ推論指標(特に非指示チューニングベースモデル補正版)が広範なミスアライメントの程度を予測する優れた事前指標となることを明らかにした。さらに、異なるデータセットでファインチューニングされたモデル間のミスアライメントを調査し、一つの創発的ミスアライメントモデルから抽出した方向ベクトルが他モデルの振る舞い制御に一般化可能か分析した。本研究は、AIセキュリティとポストトレーニングに示唆を持つドメイン別ミスアライメントの分類的階層化を初めて提供するとともに、ミスアライメントデータセット構築の標準化レシピを確立した。すべてのコードとデータセットはGitHubで公開している。https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
English
Emergent misalignment poses risks to AI safety as language models are increasingly used for autonomous tasks. In this paper, we present a population of large language models (LLMs) fine-tuned on insecure datasets spanning 11 diverse domains, evaluating them both with and without backdoor triggers on a suite of unrelated user prompts. Our evaluation experiments on Qwen2.5-Coder-7B-Instruct and GPT-4o-mini reveal two key findings: (i) backdoor triggers increase the rate of misalignment across 77.8% of domains (average drop: 4.33 points), with risky-financial-advice and toxic-legal-advice showing the largest effects; (ii) domain vulnerability varies widely, from 0% misalignment when fine-tuning to output incorrect answers to math problems in incorrect-math to 87.67% when fine-tuned on gore-movie-trivia. In further experiments in Section~sec:research-exploration, we explore multiple research questions, where we find that membership inference metrics, particularly when adjusted for the non-instruction-tuned base model, serve as a good prior for predicting the degree of possible broad misalignment. Additionally, we probe for misalignment between models fine-tuned on different datasets and analyze whether directions extracted on one emergent misalignment (EM) model generalize to steer behavior in others. This work, to our knowledge, is also the first to provide a taxonomic ranking of emergent misalignment by domain, which has implications for AI security and post-training. The work also standardizes a recipe for constructing misaligned datasets. All code and datasets are publicly available on GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
PDF03February 7, 2026