ssToken: Саморегулируемый и семантически осознанный выбор токенов для тонкой настройки языковых моделей
ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning
October 21, 2025
Авторы: Xiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan
cs.AI
Аннотация
Качество данных играет ключевую роль в улучшении контролируемой тонкой настройки (SFT) для крупных языковых моделей (LLM), и выбор данных на уровне токенов стал перспективным направлением благодаря своей детализированной природе. Несмотря на их высокую эмпирическую эффективность, существующие методы выбора на уровне токенов имеют два ключевых ограничения: (1) необходимость обучения или доступа к дополнительной референсной модели и (2) зависимость исключительно от информации о потерях для выбора токенов, что не позволяет сохранять семантически важные токены, которые не учитываются метриками, основанными на потерях. Для решения этих проблем мы предлагаем ssToken — подход к выбору токенов, основанный на самомодуляции и семантической осведомленности. ssToken использует легко доступные исторические модели для вычисления разницы в потерях на уровне токенов с текущей моделью, что служит самомодулируемым сигналом, позволяющим модели адаптивно выбирать токены в процессе оптимизации, вместо того чтобы полагаться на избыточные потери от оффлайн-обученной референсной модели, как в предыдущих работах. Мы также вводим семантически осведомленную метрику оценки важности токенов, основанную на механизме внимания, которая ортогональна выбору на основе потерь и предоставляет дополнительную семантическую информацию для более эффективной фильтрации. Многочисленные эксперименты на различных семействах моделей и масштабах демонстрируют, что как самомодулируемый выбор, так и семантически осведомленный выбор по отдельности превосходят тонкую настройку на полных данных, а их интеграция — ssToken — достигает синергетического эффекта и превосходит предыдущие методы выбора на уровне токенов, обеспечивая улучшение производительности при сохранении эффективности обучения.
English
Data quality plays a critical role in enhancing supervised fine-tuning (SFT)
for large language models (LLMs), and token-level data selection has emerged as
a promising direction for its fine-grained nature. Despite their strong
empirical performance, existing token-level selection methods share two key
limitations: (1) requiring training or accessing an additional reference model,
and (2) relying solely on loss information for token selection, which cannot
well preserve semantically important tokens that are not favored by loss-based
metrics. To address these challenges, we propose ssToken, a Self-modulated and
Semantic-aware Token Selection approach. ssToken leverages readily accessible
history models to compute the per-token loss difference with the current model,
which serves as a self-modulated signal that enables the model to adaptively
select tokens along its optimization trajectory, rather than relying on excess
loss from an offline-trained reference model as in prior works. We further
introduce a semantic-aware, attention-based token importance estimation metric,
orthogonal to loss-based selection and providing complementary semantic
information for more effective filtering. Extensive experiments across
different model families and scales demonstrate that both self-modulated
selection and semantic-aware selection alone outperform full-data fine-tuning,
while their integration--ssToken--achieves synergistic gains and further
surpasses prior token-level selection methods, delivering performance
improvements while maintaining training efficiency.