Modellare le capacità attraverso la filtrazione dei dati a livello di token

Abstract

Gli approcci attuali per ridurre le capacità indesiderate nei modelli linguistici sono largamente post hoc e possono quindi essere facilmente aggirati da avversari. Un'alternativa naturale consiste nel modellare le capacità durante il pretraining stesso. Sul compito proxy di rimuovere le capacità mediche, dimostriamo che il semplice intervento di filtrare i dati di pretraining è altamente efficace, robusto ed economico su larga scala. Ispirati dal lavoro sull'attribuzione dei dati, mostriamo che filtrare i token è più efficace del filtrare i documenti, raggiungendo lo stesso impatto sulle capacità indesiderate a un costo inferiore per quelle benigne. Addestrando modelli che coprono due ordini di grandezza, dimostriamo poi che il filtraggio diventa più efficace con la scala: per i nostri modelli più grandi, il filtraggio dei token comporta un rallentamento computazionale di 7000x nel dominio da dimenticare. Mostriamo anche che i modelli addestrati con il filtraggio dei token possono comunque essere allineati sul dominio da dimenticare. Nel corso dello studio, introduciamo una metodologia per etichettare i token con autoencoder sparsi e per distillare classificatori economici e di alta qualità. Dimostriamo inoltre che il filtraggio può essere robusto a etichette rumorose con sufficiente potenza computazionale di pretraining.

English

Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during pretraining itself. On the proxy task of removing medical capabilities, we show that the simple intervention of filtering pretraining data is highly effective, robust, and inexpensive at scale. Inspired by work on data attribution, we show that filtering tokens is more effective than filtering documents, achieving the same hit to undesired capabilities at a lower cost to benign ones. Training models spanning two orders of magnitude, we then demonstrate that filtering gets more effective with scale: for our largest models, token filtering leads to a 7000x compute slowdown on the forget domain. We also show that models trained with token filtering can still be aligned on the forget domain. Along the way, we introduce a methodology for labeling tokens with sparse autoencoders and distilling cheap, high-quality classifiers. We also demonstrate that filtering can be robust to noisy labels with sufficient pretraining compute.

Modellare le capacità attraverso la filtrazione dei dati a livello di token

Shaping capabilities with token-level data filtering

Abstract

Support