ChatPaper.aiChatPaper

ssToken: Selbstmodulierte und semantikbewusste Tokenauswahl für das Feinabstimmen von LLM

ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning

October 21, 2025
papers.authors: Xiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan
cs.AI

papers.abstract

Die Datenqualität spielt eine entscheidende Rolle bei der Verbesserung des überwachten Feinabstimmens (Supervised Fine-Tuning, SFT) für große Sprachmodelle (Large Language Models, LLMs), und die Token-ebene Datenauswahl hat sich aufgrund ihrer feingranularen Natur als vielversprechende Richtung erwiesen. Trotz ihrer starken empirischen Leistung teilen bestehende Token-ebene Auswahlmethoden zwei wesentliche Einschränkungen: (1) sie erfordern das Training oder den Zugriff auf ein zusätzliches Referenzmodell und (2) sie stützen sich ausschließlich auf Verlustinformationen für die Token-Auswahl, wodurch semantisch wichtige Token, die nicht durch verlustbasierte Metriken bevorzugt werden, nicht gut erhalten bleiben. Um diese Herausforderungen zu bewältigen, schlagen wir ssToken vor, einen selbstmodulierten und semantikbewussten Token-Auswahlansatz. ssToken nutzt leicht zugängliche historische Modelle, um den Token-ebenen Verlustunterschied zum aktuellen Modell zu berechnen, der als selbstmoduliertes Signal dient und es dem Modell ermöglicht, Token entlang seines Optimierungspfads adaptiv auszuwählen, anstatt sich auf den überschüssigen Verlust eines offline trainierten Referenzmodells zu verlassen, wie in früheren Arbeiten. Darüber hinaus führen wir ein semantikbewusstes, auf Aufmerksamkeit basierendes Token-Bedeutungsschätzungsmetrik ein, das orthogonal zur verlustbasierten Auswahl steht und zusätzliche semantische Informationen für eine effektivere Filterung liefert. Umfangreiche Experimente über verschiedene Modellfamilien und -skalen zeigen, dass sowohl die selbstmodulierte Auswahl als auch die semantikbewusste Auswahl allein das Feinabstimmen mit vollständigen Daten übertreffen, während ihre Integration – ssToken – synergetische Gewinne erzielt und frühere Token-ebene Auswahlmethoden weiter übertrifft, wodurch Leistungsverbesserungen bei gleichzeitiger Aufrechterhaltung der Trainingseffizienz erreicht werden.
English
Data quality plays a critical role in enhancing supervised fine-tuning (SFT) for large language models (LLMs), and token-level data selection has emerged as a promising direction for its fine-grained nature. Despite their strong empirical performance, existing token-level selection methods share two key limitations: (1) requiring training or accessing an additional reference model, and (2) relying solely on loss information for token selection, which cannot well preserve semantically important tokens that are not favored by loss-based metrics. To address these challenges, we propose ssToken, a Self-modulated and Semantic-aware Token Selection approach. ssToken leverages readily accessible history models to compute the per-token loss difference with the current model, which serves as a self-modulated signal that enables the model to adaptively select tokens along its optimization trajectory, rather than relying on excess loss from an offline-trained reference model as in prior works. We further introduce a semantic-aware, attention-based token importance estimation metric, orthogonal to loss-based selection and providing complementary semantic information for more effective filtering. Extensive experiments across different model families and scales demonstrate that both self-modulated selection and semantic-aware selection alone outperform full-data fine-tuning, while their integration--ssToken--achieves synergistic gains and further surpasses prior token-level selection methods, delivering performance improvements while maintaining training efficiency.
PDF112October 22, 2025