ssToken : Sélection de tokens auto-modulée et sémantiquement consciente pour le fine-tuning des grands modèles de langage
ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning
October 21, 2025
papers.authors: Xiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan
cs.AI
papers.abstract
La qualité des données joue un rôle crucial dans l'amélioration du réglage fin supervisé (SFT) pour les grands modèles de langage (LLMs), et la sélection de données au niveau des tokens s'est imposée comme une direction prometteuse en raison de sa nature granulaire. Malgré leurs performances empiriques solides, les méthodes existantes de sélection au niveau des tokens partagent deux limitations majeures : (1) nécessiter l'entraînement ou l'accès à un modèle de référence supplémentaire, et (2) s'appuyer uniquement sur des informations de perte pour la sélection des tokens, ce qui ne permet pas de bien préserver les tokens sémantiquement importants qui ne sont pas favorisés par les métriques basées sur la perte. Pour relever ces défis, nous proposons ssToken, une approche de sélection de tokens auto-modulée et consciente de la sémantique. ssToken exploite des modèles historiques facilement accessibles pour calculer la différence de perte par token avec le modèle actuel, ce qui sert de signal auto-modulé permettant au modèle de sélectionner de manière adaptative les tokens le long de sa trajectoire d'optimisation, plutôt que de s'appuyer sur une perte excessive provenant d'un modèle de référence pré-entraîné comme dans les travaux précédents. Nous introduisons en outre une métrique d'estimation de l'importance des tokens basée sur l'attention et consciente de la sémantique, orthogonale à la sélection basée sur la perte et fournissant des informations sémantiques complémentaires pour un filtrage plus efficace. Des expériences approfondies sur différentes familles de modèles et échelles démontrent que la sélection auto-modulée et la sélection consciente de la sémantique surpassent individuellement le réglage fin sur l'ensemble des données, tandis que leur intégration—ssToken—obtient des gains synergiques et surpasse davantage les méthodes de sélection au niveau des tokens précédentes, offrant des améliorations de performance tout en maintenant l'efficacité de l'entraînement.
English
Data quality plays a critical role in enhancing supervised fine-tuning (SFT)
for large language models (LLMs), and token-level data selection has emerged as
a promising direction for its fine-grained nature. Despite their strong
empirical performance, existing token-level selection methods share two key
limitations: (1) requiring training or accessing an additional reference model,
and (2) relying solely on loss information for token selection, which cannot
well preserve semantically important tokens that are not favored by loss-based
metrics. To address these challenges, we propose ssToken, a Self-modulated and
Semantic-aware Token Selection approach. ssToken leverages readily accessible
history models to compute the per-token loss difference with the current model,
which serves as a self-modulated signal that enables the model to adaptively
select tokens along its optimization trajectory, rather than relying on excess
loss from an offline-trained reference model as in prior works. We further
introduce a semantic-aware, attention-based token importance estimation metric,
orthogonal to loss-based selection and providing complementary semantic
information for more effective filtering. Extensive experiments across
different model families and scales demonstrate that both self-modulated
selection and semantic-aware selection alone outperform full-data fine-tuning,
while their integration--ssToken--achieves synergistic gains and further
surpasses prior token-level selection methods, delivering performance
improvements while maintaining training efficiency.