Formung von Fähigkeiten durch Token-Level-Datenfilterung
Shaping capabilities with token-level data filtering
January 29, 2026
papers.authors: Neil Rathi, Alec Radford
cs.AI
papers.abstract
Aktuelle Ansätze zur Reduzierung unerwünschter Fähigkeiten in Sprachmodellen sind weitgehend nachträglich und können daher von Angreifern leicht umgangen werden. Eine natürliche Alternative besteht darin, Fähigkeiten bereits während des Vorabtrainings zu formen. Anhand der Stellvertreteraufgabe, medizinische Fähigkeiten zu entfernen, zeigen wir, dass die einfache Intervention des Filterns von Vorabtrainingsdaten hochwirksam, robust und in großem Maßstab kostengünstig ist. Inspiriert durch Arbeiten zur Datenattribution zeigen wir, dass das Filtern von Tokens wirksamer ist als das Filtern ganzer Dokumente, da derselbe Effekt auf unerwünschte Fähigkeiten bei geringeren Einbußen bei erwünschten Fähigkeiten erzielt wird. Durch das Training von Modellen über zwei Größenordnungen hinweg demonstrieren wir anschließend, dass das Filtern mit zunehmender Skalierung wirksamer wird: Bei unseren größten Modellen führt Token-Filtering zu einer 7000-fachen Verlangsamung der Rechenleistung im zu vergessenden Bereich. Wir zeigen auch, dass Modelle, die mit Token-Filtering trainiert wurden, dennoch auf den zu vergessenden Bereich angepasst werden können. Im Zuge dessen führen wir eine Methodik zur Kennzeichnung von Tokens mit sparse Autoencodern und zur Destillation kostengünstiger, hochwertiger Klassifikatoren ein. Wir demonstrieren außerdem, dass das Filtern bei ausreichender Vorabtrainings-Rechenleistung robust gegenüber verrauschten Kennzeichnungen sein kann.
English
Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during pretraining itself. On the proxy task of removing medical capabilities, we show that the simple intervention of filtering pretraining data is highly effective, robust, and inexpensive at scale. Inspired by work on data attribution, we show that filtering tokens is more effective than filtering documents, achieving the same hit to undesired capabilities at a lower cost to benign ones. Training models spanning two orders of magnitude, we then demonstrate that filtering gets more effective with scale: for our largest models, token filtering leads to a 7000x compute slowdown on the forget domain. We also show that models trained with token filtering can still be aligned on the forget domain. Along the way, we introduce a methodology for labeling tokens with sparse autoencoders and distilling cheap, high-quality classifiers. We also demonstrate that filtering can be robust to noisy labels with sufficient pretraining compute.