Conformación de capacidades mediante filtrado de datos a nivel de token
Shaping capabilities with token-level data filtering
January 29, 2026
Autores: Neil Rathi, Alec Radford
cs.AI
Resumen
Los enfoques actuales para reducir capacidades no deseadas en modelos de lenguaje son en gran medida *post hoc* y, por lo tanto, pueden ser fácilmente eludidos por adversarios. Una alternativa natural es moldear las capacidades durante la propia fase de preentrenamiento. En la tarea proxy de eliminar capacidades médicas, demostramos que la simple intervención de filtrar los datos de preentrenamiento es altamente efectiva, robusta y económica a escala. Inspirados por trabajos sobre atribución de datos, mostramos que filtrar tokens es más efectivo que filtrar documentos, logrando el mismo impacto en las capacidades no deseadas a un menor coste para las capacidades benignas. Entrenando modelos que abarcan dos órdenes de magnitud, demostramos luego que el filtrado se vuelve más efectivo con la escala: para nuestros modelos más grandes, el filtrado de tokens provoca una ralentización computacional de 7000x en el dominio a olvidar. También mostramos que los modelos entrenados con filtrado de tokens aún pueden ser alineados en el dominio a olvidar. En el proceso, introducimos una metodología para etiquetar tokens usando autocodificadores dispersos y destilando clasificadores baratos y de alta calidad. También demostramos que el filtrado puede ser robusto frente a etiquetas ruidosas con suficiente capacidad computacional de preentrenamiento.
English
Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during pretraining itself. On the proxy task of removing medical capabilities, we show that the simple intervention of filtering pretraining data is highly effective, robust, and inexpensive at scale. Inspired by work on data attribution, we show that filtering tokens is more effective than filtering documents, achieving the same hit to undesired capabilities at a lower cost to benign ones. Training models spanning two orders of magnitude, we then demonstrate that filtering gets more effective with scale: for our largest models, token filtering leads to a 7000x compute slowdown on the forget domain. We also show that models trained with token filtering can still be aligned on the forget domain. Along the way, we introduce a methodology for labeling tokens with sparse autoencoders and distilling cheap, high-quality classifiers. We also demonstrate that filtering can be robust to noisy labels with sufficient pretraining compute.