ChatPaper.aiChatPaper

ssToken: 大規模言語モデルファインチューニングのための自己調整型セマンティック対応トークン選択

ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning

October 21, 2025
著者: Xiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan
cs.AI

要旨

データ品質は、大規模言語モデル(LLM)の教師ありファインチューニング(SFT)を強化する上で重要な役割を果たし、トークンレベルのデータ選択はその細粒度の性質から有望な方向性として浮上している。強力な実証性能を持つにもかかわらず、既存のトークンレベル選択手法は2つの主要な制限を共有している:(1)追加の参照モデルのトレーニングまたはアクセスを必要とすること、(2)損失情報のみに依存してトークンを選択するため、損失ベースの指標に好まれない意味的に重要なトークンを十分に保持できないこと。これらの課題に対処するため、我々はssToken、すなわち自己調整型かつ意味認識型のトークン選択アプローチを提案する。ssTokenは、容易にアクセス可能な履歴モデルを活用して、現在のモデルとのトークンごとの損失差を計算し、これが自己調整信号として機能し、モデルがその最適化軌跡に沿って適応的にトークンを選択できるようにする。これにより、従来の研究のようにオフラインでトレーニングされた参照モデルからの過剰な損失に依存する必要がなくなる。さらに、損失ベースの選択とは直交し、補完的な意味情報を提供する意味認識型の注意ベースのトークン重要度推定指標を導入し、より効果的なフィルタリングを実現する。異なるモデルファミリーとスケールにわたる広範な実験により、自己調整型選択と意味認識型選択のいずれもが全データファインチューニングを上回り、それらの統合であるssTokenは相乗効果を発揮し、従来のトークンレベル選択手法をさらに凌駕し、トレーニング効率を維持しながら性能向上を達成することが実証された。
English
Data quality plays a critical role in enhancing supervised fine-tuning (SFT) for large language models (LLMs), and token-level data selection has emerged as a promising direction for its fine-grained nature. Despite their strong empirical performance, existing token-level selection methods share two key limitations: (1) requiring training or accessing an additional reference model, and (2) relying solely on loss information for token selection, which cannot well preserve semantically important tokens that are not favored by loss-based metrics. To address these challenges, we propose ssToken, a Self-modulated and Semantic-aware Token Selection approach. ssToken leverages readily accessible history models to compute the per-token loss difference with the current model, which serves as a self-modulated signal that enables the model to adaptively select tokens along its optimization trajectory, rather than relying on excess loss from an offline-trained reference model as in prior works. We further introduce a semantic-aware, attention-based token importance estimation metric, orthogonal to loss-based selection and providing complementary semantic information for more effective filtering. Extensive experiments across different model families and scales demonstrate that both self-modulated selection and semantic-aware selection alone outperform full-data fine-tuning, while their integration--ssToken--achieves synergistic gains and further surpasses prior token-level selection methods, delivering performance improvements while maintaining training efficiency.
PDF112October 22, 2025