ProFit: Aproveitamento de Sinais de Alto Valor em SFT por meio de Seleção Guiada por Probabilidade de Tokens

Resumo

O ajuste fino supervisionado (SFT) é uma estratégia fundamental de pós-treinamento para alinhar os Grandes Modelos de Linguagem (LLMs) com a intenção humana. No entanto, o SFT tradicional frequentemente ignora a natureza um-para-muitos da linguagem, forçando o alinhamento com uma única resposta de referência, o que leva o modelo a sofrer sobreajuste a expressões não essenciais. Embora nossa análise empírica sugira que a introdução de múltiplas respostas de referência pode mitigar este problema, os custos proibitivos de dados e computação exigem uma mudança estratégica: priorizar a mitigação do sobreajuste à referência única em vez da busca custosa pela diversidade de respostas. Para alcançar isto, revelamos a conexão intrínseca entre a probabilidade do token e a importância semântica: tokens de alta probabilidade carregam a estrutura lógica central, enquanto tokens de baixa probabilidade são principalmente expressões substituíveis. Com base nesta perceção, propomos o ProFit, que mascara seletivamente tokens de baixa probabilidade para evitar o sobreajuste superficial. Experimentos extensivos confirmam que o ProFit supera consistentemente as linhas de base do SFT tradicional em benchmarks de raciocínio geral e matemático.

English

Supervised fine-tuning (SFT) is a fundamental post-training strategy to align Large Language Models (LLMs) with human intent. However, traditional SFT often ignores the one-to-many nature of language by forcing alignment with a single reference answer, leading to the model overfitting to non-core expressions. Although our empirical analysis suggests that introducing multiple reference answers can mitigate this issue, the prohibitive data and computational costs necessitate a strategic shift: prioritizing the mitigation of single-reference overfitting over the costly pursuit of answer diversity. To achieve this, we reveal the intrinsic connection between token probability and semantic importance: high-probability tokens carry the core logical framework, while low-probability tokens are mostly replaceable expressions. Based on this insight, we propose ProFit, which selectively masks low-probability tokens to prevent surface-level overfitting. Extensive experiments confirm that ProFit consistently outperforms traditional SFT baselines on general reasoning and mathematical benchmarks.

ProFit: Aproveitamento de Sinais de Alto Valor em SFT por meio de Seleção Guiada por Probabilidade de Tokens

ProFit: Leveraging High-Value Signals in SFT via Probability-Guided Token Selection

Resumo

Support