ProFit: Использование высокоценных сигналов в SFT с помощью вероятностного выбора токенов
ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection
January 14, 2026
Авторы: Tao Liu, Taiqiang Wu, Runming Yang, Shaoning Sun, Junjie Wang, Yujiu Yang
cs.AI
Аннотация
Контролируемое тонкое настраивание (SFT) является фундаментальной стратегией пост-обучения для согласования больших языковых моделей (LLM) с человеческими намерениями. Однако традиционное SFT часто игнорирует свойство «один-ко-многим» в языке, принудительно выравнивая модель под единственный эталонный ответ, что приводит к переобучению модели на несущественные выражения. Хотя наш эмпирический анализ показывает, что введение множественных эталонных ответов может смягчить эту проблему, непомерные затраты на данные и вычисления требуют стратегического сдвига: приоритизации снижения переобучения на единственный ответ над дорогостоящим стремлением к разнообразию ответов. Для достижения этой цели мы раскрываем внутреннюю связь между вероятностью токенов и их семантической важностью: токены с высокой вероятностью несут основную логическую структуру, в то время как токены с низкой вероятностью в основном являются заменяемыми выражениями. Основываясь на этом наблюдении, мы предлагаем метод ProFit, который выборочно маскирует токены с низкой вероятностью, чтобы предотвратить поверхностное переобучение. Многочисленные эксперименты подтверждают, что ProFit стабильно превосходит традиционные базовые методы SFT на тестах общего мышления и математических бенчмарках.
English
Supervised fine-tuning (SFT) is a fundamental post-training strategy to align Large Language Models (LLMs) with human intent. However, traditional SFT often ignores the one-to-many nature of language by forcing alignment with a single reference answer, leading to the model overfitting to non-core expressions. Although our empirical analysis suggests that introducing multiple reference answers can mitigate this issue, the prohibitive data and computational costs necessitate a strategic shift: prioritizing the mitigation of single-reference overfitting over the costly pursuit of answer diversity. To achieve this, we reveal the intrinsic connection between token probability and semantic importance: high-probability tokens carry the core logical framework, while low-probability tokens are mostly replaceable expressions. Based on this insight, we propose ProFit, which selectively masks low-probability tokens to prevent surface-level overfitting. Extensive experiments confirm that ProFit consistently outperforms traditional SFT baselines on general reasoning and mathematical benchmarks.