ChatPaper.aiChatPaper

Формирование возможностей с помощью фильтрации данных на уровне токенов

Shaping capabilities with token-level data filtering

January 29, 2026
Авторы: Neil Rathi, Alec Radford
cs.AI

Аннотация

Современные подходы к снижению нежелательных возможностей языковых моделей в основном носят постфактумный характер и потому могут быть легко обойдены злоумышленниками. Естественной альтернативой является формирование возможностей на этапе предварительного обучения. На примере задачи устранения медицинских компетенций мы показываем, что простое вмешательство в виде фильтрации данных предварительного обучения высокоэффективно, устойчиво и экономично при масштабировании. Вдохновляясь исследованиями по атрибуции данных, мы демонстрируем, что фильтрация токенов эффективнее фильтрации документов, достигая аналогичного снижения нежелательных возможностей при меньшем ущербе для полезных функций. Обучив модели в диапазоне двух порядков величины, мы затем показываем, что эффективность фильтрации возрастает с масштабом: для наших крупнейших моделей фильтрация токенов приводит к 7000-кратному замедлению вычислений в целевом домене. Мы также демонстрируем, что модели, обученные с фильтрацией токенов, сохраняют способность к адаптации в целевом домене. Попутно мы представляем методологию разметки токенов с помощью разреженных автоэнкодеров и создания экономичных высококачественных классификаторов. Кроме того, мы показываем, что фильтрация устойчива к зашумленным меткам при достаточных вычислительных ресурсах предварительного обучения.
English
Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during pretraining itself. On the proxy task of removing medical capabilities, we show that the simple intervention of filtering pretraining data is highly effective, robust, and inexpensive at scale. Inspired by work on data attribution, we show that filtering tokens is more effective than filtering documents, achieving the same hit to undesired capabilities at a lower cost to benign ones. Training models spanning two orders of magnitude, we then demonstrate that filtering gets more effective with scale: for our largest models, token filtering leads to a 7000x compute slowdown on the forget domain. We also show that models trained with token filtering can still be aligned on the forget domain. Along the way, we introduce a methodology for labeling tokens with sparse autoencoders and distilling cheap, high-quality classifiers. We also demonstrate that filtering can be robust to noisy labels with sufficient pretraining compute.
PDF113January 31, 2026