ChatPaper.aiChatPaper

ProFit: Aprovechamiento de Señales de Alto Valor en SFT mediante Selección de Tokens Guiada por Probabilidad

ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection

January 14, 2026
Autores: Tao Liu, Taiqiang Wu, Runming Yang, Shaoning Sun, Junjie Wang, Yujiu Yang
cs.AI

Resumen

El ajuste supervisado (SFT) es una estrategia fundamental posterior al entrenamiento para alinear los Modelos de Lenguaje Grandes (LLMs) con la intención humana. Sin embargo, el SFT tradicional a menudo ignora la naturaleza uno-a-muchos del lenguaje al forzar la alineación con una única respuesta de referencia, lo que lleva al modelo a sobreajustarse a expresiones no esenciales. Aunque nuestro análisis empírico sugiere que introducir múltiples respuestas de referencia puede mitigar este problema, los costos prohibitivos de datos y computación exigen un cambio estratégico: priorizar la mitigación del sobreajuste a una única referencia sobre la costosa búsqueda de diversidad de respuestas. Para lograrlo, revelamos la conexión intrínseca entre la probabilidad léxica y la importancia semántica: los tokens de alta probabilidad contienen el marco lógico central, mientras que los tokens de baja probabilidad son en su mayoría expresiones reemplazables. Basándonos en esta idea, proponemos ProFit, que enmascara selectivamente los tokens de baja probabilidad para prevenir el sobreajuste superficial. Experimentos exhaustivos confirman que ProFit supera consistentemente a los métodos de referencia de SFT tradicional en evaluaciones de razonamiento general y matemático.
English
Supervised fine-tuning (SFT) is a fundamental post-training strategy to align Large Language Models (LLMs) with human intent. However, traditional SFT often ignores the one-to-many nature of language by forcing alignment with a single reference answer, leading to the model overfitting to non-core expressions. Although our empirical analysis suggests that introducing multiple reference answers can mitigate this issue, the prohibitive data and computational costs necessitate a strategic shift: prioritizing the mitigation of single-reference overfitting over the costly pursuit of answer diversity. To achieve this, we reveal the intrinsic connection between token probability and semantic importance: high-probability tokens carry the core logical framework, while low-probability tokens are mostly replaceable expressions. Based on this insight, we propose ProFit, which selectively masks low-probability tokens to prevent surface-level overfitting. Extensive experiments confirm that ProFit consistently outperforms traditional SFT baselines on general reasoning and mathematical benchmarks.
PDF95January 20, 2026