Moldando capacidades com filtragem de dados em nível de token

Resumo

As abordagens atuais para reduzir capacidades indesejadas em modelos de linguagem são largamente *post hoc* e, portanto, podem ser facilmente contornadas por adversários. Uma alternativa natural é moldar as capacidades durante o próprio pré-treinamento. Na tarefa substituta de remover capacidades médicas, mostramos que a simples intervenção de filtrar os dados de pré-treinamento é altamente eficaz, robusta e de baixo custo em escala. Inspirados por trabalhos sobre atribuição de dados, mostramos que filtrar *tokens* é mais eficaz do que filtrar documentos, alcançando o mesmo impacto nas capacidades indesejadas a um custo menor para as capacidades benignas. Treinando modelos que abrangem duas ordens de magnitude, demonstramos então que a filtragem se torna mais eficaz com a escala: para os nossos maiores modelos, a filtragem de *tokens* resulta numa desaceleração computacional de 7000x no domínio a ser esquecido. Também mostramos que os modelos treinados com filtragem de *tokens* ainda podem ser alinhados no domínio a ser esquecido. Ao longo do caminho, introduzimos uma metodologia para rotular *tokens* com *autoencoders* esparsos e destilar classificadores de baixo custo e alta qualidade. Também demonstramos que a filtragem pode ser robusta a rótulos ruidosos com poder computacional de pré-treinamento suficiente.

English

Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during pretraining itself. On the proxy task of removing medical capabilities, we show that the simple intervention of filtering pretraining data is highly effective, robust, and inexpensive at scale. Inspired by work on data attribution, we show that filtering tokens is more effective than filtering documents, achieving the same hit to undesired capabilities at a lower cost to benign ones. Training models spanning two orders of magnitude, we then demonstrate that filtering gets more effective with scale: for our largest models, token filtering leads to a 7000x compute slowdown on the forget domain. We also show that models trained with token filtering can still be aligned on the forget domain. Along the way, we introduce a methodology for labeling tokens with sparse autoencoders and distilling cheap, high-quality classifiers. We also demonstrate that filtering can be robust to noisy labels with sufficient pretraining compute.

Moldando capacidades com filtragem de dados em nível de token

Shaping capabilities with token-level data filtering

Resumo

Support