ChatPaper.aiChatPaper

ssToken: Selezione di Token Auto-modulata e Consapevole della Semantica per il Fine-tuning di Modelli Linguistici di Grande Dimensione

ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning

October 21, 2025
Autori: Xiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan
cs.AI

Abstract

La qualità dei dati svolge un ruolo cruciale nel migliorare il fine-tuning supervisionato (SFT) per i grandi modelli linguistici (LLM), e la selezione dei dati a livello di token si è affermata come una direzione promettente grazie alla sua natura granulare. Nonostante le forti prestazioni empiriche, i metodi esistenti di selezione a livello di token condividono due limitazioni chiave: (1) richiedono l'addestramento o l'accesso a un modello di riferimento aggiuntivo, e (2) si basano esclusivamente sulle informazioni di perdita per la selezione dei token, il che non consente di preservare adeguatamente i token semanticamente importanti che non sono favoriti dalle metriche basate sulla perdita. Per affrontare queste sfide, proponiamo ssToken, un approccio di selezione dei token auto-modulato e consapevole della semantica. ssToken sfrutta modelli storici facilmente accessibili per calcolare la differenza di perdita per token rispetto al modello corrente, che funge da segnale auto-modulato che consente al modello di selezionare i token in modo adattivo lungo la sua traiettoria di ottimizzazione, anziché affidarsi alla perdita eccessiva di un modello di riferimento addestrato offline come nei lavori precedenti. Introduciamo inoltre una metrica di stima dell'importanza dei token basata sull'attenzione e consapevole della semantica, ortogonale alla selezione basata sulla perdita e in grado di fornire informazioni semantiche complementari per un filtraggio più efficace. Esperimenti estesi su diverse famiglie di modelli e scale dimostrano che sia la selezione auto-modulata che quella consapevole della semantica superano individualmente il fine-tuning su tutti i dati, mentre la loro integrazione—ssToken—ottiene guadagni sinergici e supera ulteriormente i precedenti metodi di selezione a livello di token, migliorando le prestazioni mantenendo l'efficienza dell'addestramento.
English
Data quality plays a critical role in enhancing supervised fine-tuning (SFT) for large language models (LLMs), and token-level data selection has emerged as a promising direction for its fine-grained nature. Despite their strong empirical performance, existing token-level selection methods share two key limitations: (1) requiring training or accessing an additional reference model, and (2) relying solely on loss information for token selection, which cannot well preserve semantically important tokens that are not favored by loss-based metrics. To address these challenges, we propose ssToken, a Self-modulated and Semantic-aware Token Selection approach. ssToken leverages readily accessible history models to compute the per-token loss difference with the current model, which serves as a self-modulated signal that enables the model to adaptively select tokens along its optimization trajectory, rather than relying on excess loss from an offline-trained reference model as in prior works. We further introduce a semantic-aware, attention-based token importance estimation metric, orthogonal to loss-based selection and providing complementary semantic information for more effective filtering. Extensive experiments across different model families and scales demonstrate that both self-modulated selection and semantic-aware selection alone outperform full-data fine-tuning, while their integration--ssToken--achieves synergistic gains and further surpasses prior token-level selection methods, delivering performance improvements while maintaining training efficiency.
PDF112October 22, 2025