엔트로피 적응형 미세 조정: 과도한 자신감 충돌 해소를 통한 망각 완화
Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting
January 5, 2026
저자: Muxi Diao, Lele Yang, Wuxuan Gong, Yutong Zhang, Zhonghao Yan, Yufei Han, Kongming Liang, Weiran Xu, Zhanyu Ma
cs.AI
초록
지도 미세 조정(SFT)은 도메인 적응의 표준 패러다임이지만, 종종 파괴적 망각의 비용을 수반합니다. 이와는 극명한 대조로, 온-폴리시 강화 학습(RL)은 일반 능력을 효과적으로 보존합니다. 우리는 이러한 차이를 조사하고 근본적인 분포 차이를 확인했습니다: RL은 모델의 내부 신념과 일치하는 반면, SFT는 모델이 외부 지도에 적합하도록 강제합니다. 이러한 불일치는 종종 낮은 확률이지만 낮은 엔트로피를 특징으로 하는 "자신 있는 충돌" 토큰으로 나타납니다. 이러한 경우 모델은 자신의 예측에 매우 확신하지만 상이한 실제 값(ground truth)을 학습하도록 강제받아 파괴적인 그래디언트 업데이트를 유발합니다. 이를 해결하기 위해 우리는 엔트로피 적응 미세 조정(EAFT)을 제안합니다. 예측 확률만을 의존하는 방법과 달리, EAFT는 토큰 수준 엔트로피를 게이팅 메커니즘으로 활용하여 인식적 불확실성과 지식 충돌을 구분합니다. 이를 통해 모델이 불확실한 샘플로부터는 학습하되, 충돌하는 데이터의 그래디언트는 억제할 수 있습니다. 수학, 의학, 에이전트 분야에서 Qwen 및 GLM 시리즈(4B부터 32B 매개변수 범위)를 대상으로 한 광범위한 실험을 통해 우리의 가설을 확인했습니다. EAFT는 표준 SFT의 하류 작업 성능을 꾸준히 유지하면서 일반 능력의 저하를 현저히 완화했습니다.
English
Supervised Fine-Tuning (SFT) is the standard paradigm for domain adaptation, yet it frequently incurs the cost of catastrophic forgetting. In sharp contrast, on-policy Reinforcement Learning (RL) effectively preserves general capabilities. We investigate this discrepancy and identify a fundamental distributional gap: while RL aligns with the model's internal belief, SFT forces the model to fit external supervision. This mismatch often manifests as "Confident Conflicts" tokens characterized by low probability but low entropy. In these instances, the model is highly confident in its own prediction but is forced to learn a divergent ground truth, triggering destructive gradient updates. To address this, we propose Entropy-Adaptive Fine-Tuning (EAFT). Unlike methods relying solely on prediction probability, EAFT utilizes token-level entropy as a gating mechanism to distinguish between epistemic uncertainty and knowledge conflict. This allows the model to learn from uncertain samples while suppressing gradients on conflicting data. Extensive experiments on Qwen and GLM series (ranging from 4B to 32B parameters) across mathematical, medical, and agentic domains confirm our hypothesis. EAFT consistently matches the downstream performance of standard SFT while significantly mitigating the degradation of general capabilities.