対数尤度を超えて:モデル能力連続体における教師ありファインチューニングのための確率ベース目的関数
Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum
October 1, 2025
著者: Gaotang Li, Ruizhong Qiu, Xiusi Chen, Heng Ji, Hanghang Tong
cs.AI
要旨
教師ありファインチューニング(SFT)は、大規模言語モデル(LLM)のポストトレーニングにおける標準的なアプローチであるが、その汎化性能はしばしば限定的である。この制約は、そのデフォルトの訓練目的である負の対数尤度(NLL)に起因すると考えられる。NLLは、スクラッチからの訓練においては古典的に最適であるが、ポストトレーニングは異なるパラダイムで動作し、その最適性の仮定を満たさない場合がある。すなわち、モデルはすでにタスク関連の事前知識をエンコードしており、教師信号が長くノイズを含む可能性がある。このため、我々は確率ベースの目的関数の一般的なファミリーを研究し、異なる条件下でのその有効性を特徴づける。7つのモデルバックボーン、14のベンチマーク、3つのドメインにわたる包括的な実験と広範なアブレーション研究を通じて、目的関数の挙動を支配する重要な次元を明らかにした:モデル能力連続体である。モデル能力が高い側では、低確率のトークンを軽視する事前知識に基づく目的関数(例:-p、-p^{10}、閾値付きバリアント)が一貫してNLLを上回る;モデル能力が低い側では、NLLが優位となる;その中間では、単一の目的関数が優位となることはない。我々の理論分析はさらに、目的関数が連続体にわたってどのように入れ替わるかを明らかにし、モデル能力に応じて目的関数を適応させるための原理的な基盤を提供する。コードはhttps://github.com/GaotangLi/Beyond-Log-Likelihoodで公開されている。
English
Supervised fine-tuning (SFT) is the standard approach for post-training large
language models (LLMs), yet it often shows limited generalization. We trace
this limitation to its default training objective: negative log likelihood
(NLL). While NLL is classically optimal when training from scratch,
post-training operates in a different paradigm and could violate its optimality
assumptions, where models already encode task-relevant priors and supervision
can be long and noisy. To this end, we study a general family of
probability-based objectives and characterize their effectiveness under
different conditions. Through comprehensive experiments and extensive ablation
studies across 7 model backbones, 14 benchmarks, and 3 domains, we uncover a
critical dimension that governs objective behavior: the model-capability
continuum. Near the model-strong end, prior-leaning objectives that downweight
low-probability tokens (e.g., -p, -p^{10}, thresholded variants)
consistently outperform NLL; toward the model-weak end, NLL dominates; in
between, no single objective prevails. Our theoretical analysis further
elucidates how objectives trade places across the continuum, providing a
principled foundation for adapting objectives to model capability. Our code is
available at https://github.com/GaotangLi/Beyond-Log-Likelihood.