로그 우도 이상: 모델 역량 연속체 전반에 걸친 지도 미세 조정을 위한 확률 기반 목적 함수
Beyond Log Likelihood: Probability-Based Objectives for Supervised Fine-Tuning across the Model Capability Continuum
October 1, 2025
저자: Gaotang Li, Ruizhong Qiu, Xiusi Chen, Heng Ji, Hanghang Tong
cs.AI
초록
지도 미세 조정(SFT)은 대규모 언어 모델(LLM)의 사후 학습을 위한 표준 접근법이지만, 종종 제한된 일반화 능력을 보입니다. 우리는 이러한 한계를 기본 학습 목표인 음의 로그 가능도(NLL)에서 찾았습니다. NLL은 처음부터 학습할 때는 고전적으로 최적이지만, 사후 학습은 다른 패러다임에서 작동하며 그 최적성 가정을 위반할 수 있습니다. 이는 모델이 이미 작업 관련 사전 지식을 인코딩하고 있으며, 지도 신호가 길고 노이즈가 많을 수 있기 때문입니다. 이를 위해 우리는 확률 기반 목표 함수의 일반적인 패밀리를 연구하고 다양한 조건에서의 효과를 분석했습니다. 7개의 모델 백본, 14개의 벤치마크, 3개의 도메인에 걸친 포괄적인 실험과 광범위한 어블레이션 연구를 통해, 우리는 목표 함수의 동작을 지배하는 중요한 차원인 '모델-능력 연속체'를 발견했습니다. 모델이 강한 영역에서는 낮은 확률 토큰의 가중치를 줄이는 사전 경향 목표 함수(예: -p, -p^{10}, 임계값 변형)가 NLL을 일관되게 능가했습니다. 반면 모델이 약한 영역에서는 NLL이 우세했으며, 중간 영역에서는 단일 목표 함수가 우위를 점하지 못했습니다. 우리의 이론적 분석은 이 연속체를 가로지르며 목표 함수가 어떻게 교체되는지를 명확히 하여, 모델 능력에 맞게 목표 함수를 조정하는 데 이론적 기반을 제공합니다. 우리의 코드는 https://github.com/GaotangLi/Beyond-Log-Likelihood에서 확인할 수 있습니다.
English
Supervised fine-tuning (SFT) is the standard approach for post-training large
language models (LLMs), yet it often shows limited generalization. We trace
this limitation to its default training objective: negative log likelihood
(NLL). While NLL is classically optimal when training from scratch,
post-training operates in a different paradigm and could violate its optimality
assumptions, where models already encode task-relevant priors and supervision
can be long and noisy. To this end, we study a general family of
probability-based objectives and characterize their effectiveness under
different conditions. Through comprehensive experiments and extensive ablation
studies across 7 model backbones, 14 benchmarks, and 3 domains, we uncover a
critical dimension that governs objective behavior: the model-capability
continuum. Near the model-strong end, prior-leaning objectives that downweight
low-probability tokens (e.g., -p, -p^{10}, thresholded variants)
consistently outperform NLL; toward the model-weak end, NLL dominates; in
between, no single objective prevails. Our theoretical analysis further
elucidates how objectives trade places across the continuum, providing a
principled foundation for adapting objectives to model capability. Our code is
available at https://github.com/GaotangLi/Beyond-Log-Likelihood.