ChatPaper.aiChatPaper

ProFit : Exploitation des signaux à haute valeur dans l'apprentissage par fine-tuning supervisé via une sélection de tokens guidée par les probabilités

ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection

January 14, 2026
papers.authors: Tao Liu, Taiqiang Wu, Runming Yang, Shaoning Sun, Junjie Wang, Yujiu Yang
cs.AI

papers.abstract

Le fine-tuning supervisé (SFT) est une stratégie fondamentale d'après-entraînement pour aligner les grands modèles de langage (LLM) sur l'intention humaine. Cependant, le SFT traditionnel ignore souvent la nature un-à-plusieurs du langage en forçant l'alignement sur une seule réponse de référence, conduisant le modèle à surapprendre des expressions non essentielles. Bien que notre analyse empirique suggère que l'introduction de multiples réponses de référence puisse atténuer ce problème, les coûts prohibitifs en données et en calcul nécessitent un changement stratégique : prioriser l'atténuation du surapprentissage sur référence unique plutôt que la poursuite coûteuse de la diversité des réponses. Pour y parvenir, nous révélons le lien intrinsèque entre la probabilité token et l'importance sémantique : les tokens à haute probabilité portent le cadre logique central, tandis que les tokens à faible probabilité sont majoritairement des expressions remplaçables. Sur la base de cette intuition, nous proposons ProFit, qui masque sélectivement les tokens à faible probabilité pour prévenir le surapprentissage superficiel. Des expériences approfondies confirment que ProFit surpasse constamment les méthodes de référence SFT traditionnelles sur des benchmarks de raisonnement général et mathématique.
English
Supervised fine-tuning (SFT) is a fundamental post-training strategy to align Large Language Models (LLMs) with human intent. However, traditional SFT often ignores the one-to-many nature of language by forcing alignment with a single reference answer, leading to the model overfitting to non-core expressions. Although our empirical analysis suggests that introducing multiple reference answers can mitigate this issue, the prohibitive data and computational costs necessitate a strategic shift: prioritizing the mitigation of single-reference overfitting over the costly pursuit of answer diversity. To achieve this, we reveal the intrinsic connection between token probability and semantic importance: high-probability tokens carry the core logical framework, while low-probability tokens are mostly replaceable expressions. Based on this insight, we propose ProFit, which selectively masks low-probability tokens to prevent surface-level overfitting. Extensive experiments confirm that ProFit consistently outperforms traditional SFT baselines on general reasoning and mathematical benchmarks.
PDF95January 20, 2026