Vormgeven van mogelijkheden met token-level gegevensfiltering

Samenvatting

Huidige benaderingen om ongewenste capaciteiten in taalmodel(len) te verminderen zijn grotendeels post hoc en kunnen daardoor eenvoudig worden omzeild door tegenstanders. Een natuurlijk alternatief is om capaciteiten tijdens de voorafgaande training zelf vorm te geven. Voor de proxy-taak van het verwijderen van medische capaciteiten tonen we aan dat de eenvoudige interventie van het filteren van voorafgaande trainingsdata zeer effectief, robuust en op grote schaal goedkoop is. Geïnspireerd door werk over data-attributie tonen we aan dat het filteren van tokens effectiever is dan het filteren van documenten, waarbij dezelfde impact op ongewenste capaciteiten wordt bereikt tegen lagere kosten voor goedaardige capaciteiten. Door modellen te trainen over twee grootteordes, demonstreren we vervolgens dat filteren effectiever wordt met de schaal: voor onze grootste modellen leidt tokenfiltering tot een 7000x vertraging in rekentijd voor het te vergeten domein. We tonen ook aan dat modellen die met tokenfiltering zijn getraind, nog steeds kunnen worden afgestemd op het te vergeten domein. Onderweg introduceren we een methodologie voor het labelen van tokens met sparse auto-encoders en het destilleren van goedkope, hoogwaardige classifiers. We demonstreren ook dat filtering robuust kan zijn tegen ruisige labels bij voldoende rekencapaciteit tijdens de voorafgaande training.

English

Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during pretraining itself. On the proxy task of removing medical capabilities, we show that the simple intervention of filtering pretraining data is highly effective, robust, and inexpensive at scale. Inspired by work on data attribution, we show that filtering tokens is more effective than filtering documents, achieving the same hit to undesired capabilities at a lower cost to benign ones. Training models spanning two orders of magnitude, we then demonstrate that filtering gets more effective with scale: for our largest models, token filtering leads to a 7000x compute slowdown on the forget domain. We also show that models trained with token filtering can still be aligned on the forget domain. Along the way, we introduce a methodology for labeling tokens with sparse autoencoders and distilling cheap, high-quality classifiers. We also demonstrate that filtering can be robust to noisy labels with sufficient pretraining compute.

Vormgeven van mogelijkheden met token-level gegevensfiltering

Shaping capabilities with token-level data filtering

Samenvatting

Support