Façonner les capacités par le filtrage des données au niveau des tokens
Shaping capabilities with token-level data filtering
January 29, 2026
papers.authors: Neil Rathi, Alec Radford
cs.AI
papers.abstract
Les approches actuelles visant à réduire les capacités indésirables des modèles de langage sont largement post hoc et peuvent donc être facilement contournées par des adversaires. Une alternative naturelle consiste à façonner ces capacités durant le prétraitement lui-même. Sur la tâche proxy de suppression des capacités médicales, nous montrons que l'intervention simple du filtrage des données d'entraînement est très efficace, robuste et peu coûteuse à grande échelle. Inspirés par les travaux sur l'attribution des données, nous montrons que le filtrage des tokens est plus efficace que le filtrage des documents, atteignant une réduction similaire des capacités indésirables à un coût moindre pour les capacités bénignes. En entraînant des modèles couvrant deux ordres de grandeur, nous démontrons ensuite que le filtrage devient plus efficace avec l'échelle : pour nos plus grands modèles, le filtrage des tokens entraîne un ralentissement computationnel de 7000x sur le domaine ciblé. Nous montrons également que les modèles entraînés avec un filtrage des tokens peuvent toujours être alignés sur le domaine à oublier. Au passage, nous introduisons une méthodologie pour étiqueter les tokens à l'aide d'autoencodeurs épars et pour distiller des classifieurs peu coûteux et de haute qualité. Nous démontrons aussi que le filtrage peut rester robuste face à des étiquettes bruitées avec une puissance de calcul de prétraitement suffisante.
English
Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during pretraining itself. On the proxy task of removing medical capabilities, we show that the simple intervention of filtering pretraining data is highly effective, robust, and inexpensive at scale. Inspired by work on data attribution, we show that filtering tokens is more effective than filtering documents, achieving the same hit to undesired capabilities at a lower cost to benign ones. Training models spanning two orders of magnitude, we then demonstrate that filtering gets more effective with scale: for our largest models, token filtering leads to a 7000x compute slowdown on the forget domain. We also show that models trained with token filtering can still be aligned on the forget domain. Along the way, we introduce a methodology for labeling tokens with sparse autoencoders and distilling cheap, high-quality classifiers. We also demonstrate that filtering can be robust to noisy labels with sufficient pretraining compute.