ProFit: 확률 기반 토큰 선택을 통한 지도 미세 조정에서의 고부가가치 신호 활용
ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection
January 14, 2026
저자: Tao Liu, Taiqiang Wu, Runming Yang, Shaoning Sun, Junjie Wang, Yujiu Yang
cs.AI
초록
지도 미세 조정(SFT)은 대규모 언어 모델(LLM)을 인간의 의도에 맞추기 위한 핵심적인 사후 학습 전략입니다. 그러나 기존 SFT는 단일 참조 답변에만 정렬하도록 강제함으로써 언어의 일대다 특성을 간과하는 경우가 많아, 모델이 비핵심적 표현에 과적합되는 결과를 초래합니다. 실증 분석 결과 여러 참조 답변을 도입하면 이 문제를 완화할 수 있으나, 막대한 데이터 및 계산 비용으로 인해 답변 다양성 확보보다 단일 참조 과적합 해결에 전략적 초점을 맞출 필요가 있습니다. 이를 위해 우리는 토큰 확률과 의미적 중요도 간의 내재적 연관성을 규명했습니다: 높은 확률의 토큰은 핵심 논리 구조를 담고 있는 반면, 낮은 확률의 토큰은 대체 가능한 표현인 경우가 많습니다. 이러한 통찰을 바탕으로, 우리는 표층적 과적합을 방지하기 위해 낮은 확률의 토큰을 선택적으로 마스킹하는 ProFit을 제안합니다. 다양한 실험을 통해 ProFit이 일반 추론 및 수학적 벤치마크에서 기존 SFT 기준선을 지속적으로 능가함을 확인했습니다.
English
Supervised fine-tuning (SFT) is a fundamental post-training strategy to align Large Language Models (LLMs) with human intent. However, traditional SFT often ignores the one-to-many nature of language by forcing alignment with a single reference answer, leading to the model overfitting to non-core expressions. Although our empirical analysis suggests that introducing multiple reference answers can mitigate this issue, the prohibitive data and computational costs necessitate a strategic shift: prioritizing the mitigation of single-reference overfitting over the costly pursuit of answer diversity. To achieve this, we reveal the intrinsic connection between token probability and semantic importance: high-probability tokens carry the core logical framework, while low-probability tokens are mostly replaceable expressions. Based on this insight, we propose ProFit, which selectively masks low-probability tokens to prevent surface-level overfitting. Extensive experiments confirm that ProFit consistently outperforms traditional SFT baselines on general reasoning and mathematical benchmarks.