좁은 범위 미세조정으로 인한 돌발적 부조화에 대한 도메인 수준 취약성 평가
Assessing Domain-Level Susceptibility to Emergent Misalignment from Narrow Finetuning
January 30, 2026
저자: Abhishek Mishra, Mugilan Arulvanan, Reshma Ashok, Polina Petrova, Deepesh Suranjandass, Donnie Winkelmann
cs.AI
초록
발생적 부정렬은 언어 모델이 점차 자율적 작업에 활용됨에 따라 AI 안전에 위험을 초래합니다. 본 논문에서는 11개 다양한 도메인에 걸친 불안전한 데이터셋으로 미세 조정된 대규모 언어 모델(LLM) 집단을 제시하고, 관련 없는 사용자 프롬프트 모음에 대해 백도어 트리거 유무에 따라 이를 평가합니다. Qwen2.5-Coder-7B-Instruct와 GPT-4o-mini에 대한 평가 실험 결과 두 가지 주요 발견을 확인했습니다: (i) 백도어 트리거는 도메인의 77.8%에서 부정렬 비율을 증가시켰으며(평균 감소: 4.33점), 위험한 금융 조언(risky-financial-advice)과 유해한 법률 조언(toxic-legal-advice) 도메인에서 가장 큰 효과를 보였습니다. (ii) 도메인별 취약성은 incorrect-math에서 수학 문제 오답 출력 미세 조정 시 0%의 부정렬률부터 gore-movie-trivia 미세 조정 시 87.67%까지 매우 다양하게 나타났습니다.
섹션~sec:research-exploration의 추가 실험에서는 여러 연구 질문을 탐구했으며, 특히 비지시적 미세 조정 기반 모델을 기준으로 조정된 멤버십 추론 지표가 광범위한 부정렬 가능성 정도를 예측하는 데 유용한 사전 지표 역할을 한다는 사실을 발견했습니다. 또한 서로 다른 데이터셋으로 미세 조정된 모델 간 부정렬을 탐색하고, 한 발생적 부정렬(EM) 모델에서 추출된 방향성이 다른 모델의 행동을 제어하는 데 일반화되는지 분석했습니다. 우리가 아는 한, 본 연구는 도메인별 발생적 부정렬에 대한 분류 체계적 순위를 최초로 제시하여 AI 보안과 사후 훈련에 시사점을 제공합니다. 또한 본 연구는 부정렬 데이터셋 구축을 위한 표준화된 방법론을 정립합니다. 모든 코드와 데이터셋은 GitHub에서 공개되어 있습니다.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
English
Emergent misalignment poses risks to AI safety as language models are increasingly used for autonomous tasks. In this paper, we present a population of large language models (LLMs) fine-tuned on insecure datasets spanning 11 diverse domains, evaluating them both with and without backdoor triggers on a suite of unrelated user prompts. Our evaluation experiments on Qwen2.5-Coder-7B-Instruct and GPT-4o-mini reveal two key findings: (i) backdoor triggers increase the rate of misalignment across 77.8% of domains (average drop: 4.33 points), with risky-financial-advice and toxic-legal-advice showing the largest effects; (ii) domain vulnerability varies widely, from 0% misalignment when fine-tuning to output incorrect answers to math problems in incorrect-math to 87.67% when fine-tuned on gore-movie-trivia.
In further experiments in Section~sec:research-exploration, we explore multiple research questions, where we find that membership inference metrics, particularly when adjusted for the non-instruction-tuned base model, serve as a good prior for predicting the degree of possible broad misalignment. Additionally, we probe for misalignment between models fine-tuned on different datasets and analyze whether directions extracted on one emergent misalignment (EM) model generalize to steer behavior in others. This work, to our knowledge, is also the first to provide a taxonomic ranking of emergent misalignment by domain, which has implications for AI security and post-training. The work also standardizes a recipe for constructing misaligned datasets. All code and datasets are publicly available on GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main