ChatPaper.aiChatPaper

ssToken: Selección de Tokens Automodulada y Consciente de la Semántica para el Ajuste Fino de Modelos de Lenguaje de Gran Escala

ssToken: Self-modulated and Semantic-aware Token Selection for LLM Fine-tuning

October 21, 2025
Autores: Xiaohan Qin, Xiaoxing Wang, Ning Liao, Cancheng Zhang, Xiangdong Zhang, Mingquan Feng, Jingzhi Wang, Junchi Yan
cs.AI

Resumen

La calidad de los datos desempeña un papel crucial en la mejora del ajuste fino supervisado (SFT, por sus siglas en inglés) para modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), y la selección de datos a nivel de token ha surgido como una dirección prometedora debido a su naturaleza detallada. A pesar de su sólido rendimiento empírico, los métodos existentes de selección a nivel de token comparten dos limitaciones clave: (1) requieren entrenar o acceder a un modelo de referencia adicional, y (2) dependen únicamente de la información de pérdida para la selección de tokens, lo que no permite preservar adecuadamente tokens semánticamente importantes que no son favorecidos por métricas basadas en pérdida. Para abordar estos desafíos, proponemos ssToken, un enfoque de Selección de Tokens Automodulado y Consciente de la Semántica. ssToken aprovecha modelos históricos fácilmente accesibles para calcular la diferencia de pérdida por token con el modelo actual, lo que sirve como una señal automodulada que permite al modelo seleccionar tokens de manera adaptativa a lo largo de su trayectoria de optimización, en lugar de depender de la pérdida excesiva de un modelo de referencia entrenado fuera de línea, como en trabajos anteriores. Además, introducimos una métrica de estimación de importancia de tokens basada en atención y consciente de la semántica, ortogonal a la selección basada en pérdida y que proporciona información semántica complementaria para un filtrado más efectivo. Experimentos extensos en diferentes familias y escalas de modelos demuestran que tanto la selección automodulada como la selección consciente de la semántica superan individualmente el ajuste fino con todos los datos, mientras que su integración—ssToken—logra ganancias sinérgicas y supera aún más los métodos anteriores de selección a nivel de token, ofreciendo mejoras en el rendimiento mientras mantiene la eficiencia en el entrenamiento.
English
Data quality plays a critical role in enhancing supervised fine-tuning (SFT) for large language models (LLMs), and token-level data selection has emerged as a promising direction for its fine-grained nature. Despite their strong empirical performance, existing token-level selection methods share two key limitations: (1) requiring training or accessing an additional reference model, and (2) relying solely on loss information for token selection, which cannot well preserve semantically important tokens that are not favored by loss-based metrics. To address these challenges, we propose ssToken, a Self-modulated and Semantic-aware Token Selection approach. ssToken leverages readily accessible history models to compute the per-token loss difference with the current model, which serves as a self-modulated signal that enables the model to adaptively select tokens along its optimization trajectory, rather than relying on excess loss from an offline-trained reference model as in prior works. We further introduce a semantic-aware, attention-based token importance estimation metric, orthogonal to loss-based selection and providing complementary semantic information for more effective filtering. Extensive experiments across different model families and scales demonstrate that both self-modulated selection and semantic-aware selection alone outperform full-data fine-tuning, while their integration--ssToken--achieves synergistic gains and further surpasses prior token-level selection methods, delivering performance improvements while maintaining training efficiency.
PDF112October 22, 2025