ssToken: Zelf-gemoduleerde en semantisch bewuste tokenselectie voor fine-tuning van grote taalmodellen
ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning
October 21, 2025
Auteurs: Xiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan
cs.AI
Samenvatting
Data quality speelt een cruciale rol bij het verbeteren van supervised fine-tuning (SFT) voor grote taalmodelen (LLMs), en token-level data selectie is naar voren gekomen als een veelbelovende richting vanwege het fijnmazige karakter. Ondanks hun sterke empirische prestaties delen bestaande token-level selectiemethoden twee belangrijke beperkingen: (1) ze vereisen het trainen of toegang hebben tot een extra referentiemodel, en (2) ze vertrouwen uitsluitend op verliesinformatie voor tokenselectie, wat semantisch belangrijke tokens die niet worden bevoordeeld door verliesgebaseerde metrieken niet goed kan behouden. Om deze uitdagingen aan te pakken, stellen we ssToken voor, een Self-modulated and Semantic-aware Token Selection benadering. ssToken maakt gebruik van gemakkelijk toegankelijke historische modellen om het per-token verliesverschil met het huidige model te berekenen, wat dient als een zelf-gemoduleerd signaal dat het model in staat stelt om adaptief tokens te selecteren langs zijn optimalisatietraject, in plaats van te vertrouwen op excessief verlies van een offline getraind referentiemodel zoals in eerdere werken. We introduceren verder een semantisch bewuste, aandacht-gebaseerde tokenbelangschattingsmetriek, orthogonaal aan verliesgebaseerde selectie en biedt aanvullende semantische informatie voor effectievere filtering. Uitgebreide experimenten over verschillende modelfamilies en schalen tonen aan dat zowel zelf-gemoduleerde selectie als semantisch bewuste selectie alleen al beter presteren dan fine-tuning met volledige data, terwijl hun integratie—ssToken—synergistische winsten bereikt en verder uitsteekt boven eerdere token-level selectiemethoden, wat prestatieverbeteringen oplevert terwijl de trainings efficiëntie behouden blijft.
English
Data quality plays a critical role in enhancing supervised fine-tuning (SFT)
for large language models (LLMs), and token-level data selection has emerged as
a promising direction for its fine-grained nature. Despite their strong
empirical performance, existing token-level selection methods share two key
limitations: (1) requiring training or accessing an additional reference model,
and (2) relying solely on loss information for token selection, which cannot
well preserve semantically important tokens that are not favored by loss-based
metrics. To address these challenges, we propose ssToken, a Self-modulated and
Semantic-aware Token Selection approach. ssToken leverages readily accessible
history models to compute the per-token loss difference with the current model,
which serves as a self-modulated signal that enables the model to adaptively
select tokens along its optimization trajectory, rather than relying on excess
loss from an offline-trained reference model as in prior works. We further
introduce a semantic-aware, attention-based token importance estimation metric,
orthogonal to loss-based selection and providing complementary semantic
information for more effective filtering. Extensive experiments across
different model families and scales demonstrate that both self-modulated
selection and semantic-aware selection alone outperform full-data fine-tuning,
while their integration--ssToken--achieves synergistic gains and further
surpasses prior token-level selection methods, delivering performance
improvements while maintaining training efficiency.