ChatPaper.aiChatPaper

ssToken: Seleção de Tokens Automodulada e Semântica para Fine-tuning de LLMs

ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning

October 21, 2025
Autores: Xiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan
cs.AI

Resumo

A qualidade dos dados desempenha um papel crucial no aprimoramento do ajuste fino supervisionado (SFT) para modelos de linguagem de grande escala (LLMs), e a seleção de dados em nível de token surgiu como uma direção promissora devido à sua natureza refinada. Apesar do forte desempenho empírico, os métodos existentes de seleção em nível de token compartilham duas limitações principais: (1) exigem o treinamento ou acesso a um modelo de referência adicional, e (2) dependem exclusivamente de informações de perda para a seleção de tokens, o que não consegue preservar adequadamente tokens semanticamente importantes que não são favorecidos por métricas baseadas em perda. Para enfrentar esses desafios, propomos o ssToken, uma abordagem de Seleção de Tokens Automodulada e Consciente da Semântica. O ssToken aproveita modelos históricos facilmente acessíveis para calcular a diferença de perda por token com o modelo atual, que serve como um sinal automodulado que permite ao modelo selecionar tokens de forma adaptativa ao longo de sua trajetória de otimização, em vez de depender da perda excessiva de um modelo de referência treinado offline, como em trabalhos anteriores. Além disso, introduzimos uma métrica de estimativa de importância de tokens baseada em atenção e consciente da semântica, ortogonal à seleção baseada em perda e fornecendo informações semânticas complementares para uma filtragem mais eficaz. Experimentos extensivos em diferentes famílias e escalas de modelos demonstram que tanto a seleção automodulada quanto a seleção consciente da semântica superam individualmente o ajuste fino com todos os dados, enquanto sua integração—o ssToken—alcança ganhos sinérgicos e supera ainda mais os métodos anteriores de seleção em nível de token, proporcionando melhorias de desempenho enquanto mantém a eficiência do treinamento.
English
Data quality plays a critical role in enhancing supervised fine-tuning (SFT) for large language models (LLMs), and token-level data selection has emerged as a promising direction for its fine-grained nature. Despite their strong empirical performance, existing token-level selection methods share two key limitations: (1) requiring training or accessing an additional reference model, and (2) relying solely on loss information for token selection, which cannot well preserve semantically important tokens that are not favored by loss-based metrics. To address these challenges, we propose ssToken, a Self-modulated and Semantic-aware Token Selection approach. ssToken leverages readily accessible history models to compute the per-token loss difference with the current model, which serves as a self-modulated signal that enables the model to adaptively select tokens along its optimization trajectory, rather than relying on excess loss from an offline-trained reference model as in prior works. We further introduce a semantic-aware, attention-based token importance estimation metric, orthogonal to loss-based selection and providing complementary semantic information for more effective filtering. Extensive experiments across different model families and scales demonstrate that both self-modulated selection and semantic-aware selection alone outperform full-data fine-tuning, while their integration--ssToken--achieves synergistic gains and further surpasses prior token-level selection methods, delivering performance improvements while maintaining training efficiency.
PDF112October 22, 2025