ChatPaper.aiChatPaper

Au-delà de la log-vraisemblance : Objectifs basés sur les probabilités pour l'ajustement fin supervisé à travers le continuum des capacités des modèles

Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum

October 1, 2025
papers.authors: Gaotang Li, Ruizhong Qiu, Xiusi Chen, Heng Ji, Hanghang Tong
cs.AI

papers.abstract

Le fine-tuning supervisé (SFT) est l'approche standard pour l'ajustement post-entraînement des grands modèles de langage (LLMs), mais il montre souvent une généralisation limitée. Nous attribuons cette limitation à son objectif d'entraînement par défaut : la log-vraisemblance négative (NLL). Bien que la NLL soit classiquement optimale lors d'un entraînement à partir de zéro, l'ajustement post-entraînement opère dans un paradigme différent et pourrait violer ses hypothèses d'optimalité, où les modèles encodent déjà des a priori pertinents pour la tâche et la supervision peut être longue et bruyante. À cette fin, nous étudions une famille générale d'objectifs basés sur les probabilités et caractérisons leur efficacité dans différentes conditions. À travers des expériences complètes et des études d'ablation approfondies sur 7 architectures de modèles, 14 benchmarks et 3 domaines, nous mettons en évidence une dimension critique qui régit le comportement des objectifs : le continuum de capacité du modèle. Près de l'extrémité où le modèle est fort, les objectifs favorisant les a priori qui pondèrent faiblement les tokens de faible probabilité (par exemple, -p, -p^{10}, variantes seuillées) surpassent systématiquement la NLL ; vers l'extrémité où le modèle est faible, la NLL domine ; entre les deux, aucun objectif unique ne prévaut. Notre analyse théorique éclaire davantage comment les objectifs échangent leurs positions le long du continuum, fournissant une base principielle pour adapter les objectifs à la capacité du modèle. Notre code est disponible à l'adresse https://github.com/GaotangLi/Beyond-Log-Likelihood.
English
Supervised fine-tuning (SFT) is the standard approach for post-training large language models (LLMs), yet it often shows limited generalization. We trace this limitation to its default training objective: negative log likelihood (NLL). While NLL is classically optimal when training from scratch, post-training operates in a different paradigm and could violate its optimality assumptions, where models already encode task-relevant priors and supervision can be long and noisy. To this end, we study a general family of probability-based objectives and characterize their effectiveness under different conditions. Through comprehensive experiments and extensive ablation studies across 7 model backbones, 14 benchmarks, and 3 domains, we uncover a critical dimension that governs objective behavior: the model-capability continuum. Near the model-strong end, prior-leaning objectives that downweight low-probability tokens (e.g., -p, -p^{10}, thresholded variants) consistently outperform NLL; toward the model-weak end, NLL dominates; in between, no single objective prevails. Our theoretical analysis further elucidates how objectives trade places across the continuum, providing a principled foundation for adapting objectives to model capability. Our code is available at https://github.com/GaotangLi/Beyond-Log-Likelihood.
PDF82October 2, 2025