ssToken: 대형 언어 모델 미세 조정을 위한 자가 조정 및 의미 인식 토큰 선택
ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning
October 21, 2025
저자: Xiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan
cs.AI
초록
데이터 품질은 대규모 언어 모델(LLM)의 지도 미세 조정(SFT)을 향상시키는 데 중요한 역할을 하며, 토큰 수준 데이터 선택은 그 세밀한 특성으로 인해 유망한 방향으로 부상하고 있습니다. 강력한 실험적 성능에도 불구하고, 기존의 토큰 수준 선택 방법은 두 가지 주요 한계를 공유합니다: (1) 추가 참조 모델의 학습 또는 접근이 필요하며, (2) 손실 정보에만 의존하여 토큰을 선택함으로써 손실 기반 메트릭에서 선호되지 않는 의미적으로 중요한 토큰을 잘 보존하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 자체 조정 및 의미 인식 토큰 선택 접근법인 ssToken을 제안합니다. ssToken은 쉽게 접근할 수 있는 이력 모델을 활용하여 현재 모델과의 토큰별 손실 차이를 계산하며, 이는 모델이 최적화 궤적을 따라 토큰을 적응적으로 선택할 수 있도록 하는 자체 조정 신호로 작용합니다. 이는 기존 연구에서와 같이 오프라인으로 학습된 참조 모델의 과도한 손실에 의존하지 않습니다. 또한, 우리는 손실 기반 선택과 직교하며 보완적인 의미 정보를 제공하는 의미 인식, 주의 기반 토큰 중요도 추정 메트릭을 도입하여 더 효과적인 필터링을 가능하게 합니다. 다양한 모델 패밀리와 규모에 걸친 광범위한 실험을 통해, 자체 조정 선택과 의미 인식 선택 각각이 전체 데이터 미세 조정을 능가하는 반면, 이 둘을 통합한 ssToken은 시너지 효과를 달성하고 기존 토큰 수준 선택 방법을 더욱 능가하며, 훈련 효율성을 유지하면서 성능 향상을 제공함을 입증했습니다.
English
Data quality plays a critical role in enhancing supervised fine-tuning (SFT)
for large language models (LLMs), and token-level data selection has emerged as
a promising direction for its fine-grained nature. Despite their strong
empirical performance, existing token-level selection methods share two key
limitations: (1) requiring training or accessing an additional reference model,
and (2) relying solely on loss information for token selection, which cannot
well preserve semantically important tokens that are not favored by loss-based
metrics. To address these challenges, we propose ssToken, a Self-modulated and
Semantic-aware Token Selection approach. ssToken leverages readily accessible
history models to compute the per-token loss difference with the current model,
which serves as a self-modulated signal that enables the model to adaptively
select tokens along its optimization trajectory, rather than relying on excess
loss from an offline-trained reference model as in prior works. We further
introduce a semantic-aware, attention-based token importance estimation metric,
orthogonal to loss-based selection and providing complementary semantic
information for more effective filtering. Extensive experiments across
different model families and scales demonstrate that both self-modulated
selection and semantic-aware selection alone outperform full-data fine-tuning,
while their integration--ssToken--achieves synergistic gains and further
surpasses prior token-level selection methods, delivering performance
improvements while maintaining training efficiency.