Jenseits der Log-Likelihood: Wahrscheinlichkeitsbasierte Ziele für das überwachte Feinabstimmen entlang des Modellfähigkeitsspektrums
Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum
October 1, 2025
papers.authors: Gaotang Li, Ruizhong Qiu, Xiusi Chen, Heng Ji, Hanghang Tong
cs.AI
papers.abstract
Supervised Fine-Tuning (SFT) ist der Standardansatz für das Nachtraining großer Sprachmodelle (LLMs), zeigt jedoch oft eine begrenzte Generalisierungsfähigkeit. Wir führen diese Einschränkung auf das standardmäßige Trainingsziel zurück: die negative Log-Likelihood (NLL). Während NLL beim Training von Grund auf klassisch optimal ist, operiert das Nachtraining in einem anderen Paradigma und könnte die Optimalitätsannahmen verletzen, da Modelle bereits aufgabenrelevante Prioritäten kodieren und die Supervision lang und verrauscht sein kann. In diesem Zusammenhang untersuchen wir eine allgemeine Familie von wahrscheinlichkeitsbasierten Zielen und charakterisieren deren Wirksamkeit unter verschiedenen Bedingungen. Durch umfassende Experimente und ausgedehnte Ablationsstudien über 7 Modellarchitekturen, 14 Benchmarks und 3 Domänen hinweg decken wir eine kritische Dimension auf, die das Verhalten der Ziele bestimmt: das Modell-Fähigkeits-Kontinuum. Nahe dem Modell-starken Ende übertreffen prioritätsorientierte Ziele, die Tokens mit geringer Wahrscheinlichkeit abwerten (z. B. -p, -p^{10}, Schwellenwertvarianten), durchweg die NLL; am Modell-schwachen Ende dominiert die NLL; dazwischen setzt sich kein einzelnes Ziel durch. Unsere theoretische Analyse verdeutlicht weiterhin, wie Ziele entlang des Kontinuums ihre Positionen tauschen, und bietet eine prinzipielle Grundlage für die Anpassung der Ziele an die Modellfähigkeit. Unser Code ist verfügbar unter https://github.com/GaotangLi/Beyond-Log-Likelihood.
English
Supervised fine-tuning (SFT) is the standard approach for post-training large
language models (LLMs), yet it often shows limited generalization. We trace
this limitation to its default training objective: negative log likelihood
(NLL). While NLL is classically optimal when training from scratch,
post-training operates in a different paradigm and could violate its optimality
assumptions, where models already encode task-relevant priors and supervision
can be long and noisy. To this end, we study a general family of
probability-based objectives and characterize their effectiveness under
different conditions. Through comprehensive experiments and extensive ablation
studies across 7 model backbones, 14 benchmarks, and 3 domains, we uncover a
critical dimension that governs objective behavior: the model-capability
continuum. Near the model-strong end, prior-leaning objectives that downweight
low-probability tokens (e.g., -p, -p^{10}, thresholded variants)
consistently outperform NLL; toward the model-weak end, NLL dominates; in
between, no single objective prevails. Our theoretical analysis further
elucidates how objectives trade places across the continuum, providing a
principled foundation for adapting objectives to model capability. Our code is
available at https://github.com/GaotangLi/Beyond-Log-Likelihood.