토큰 수준 데이터 필터링을 통한 역량 형성
Shaping capabilities with token-level data filtering
January 29, 2026
저자: Neil Rathi, Alec Radford
cs.AI
초록
언어 모델에서 원치 않는 역량을 줄이기 위한 현재의 접근법은 대부분 사후적 조치에 그쳐, 악의적 행위자에 의해 쉽게 우회될 수 있습니다. 자연스러운 대안은 사전 학습 단계 자체에서 역량을 형성하는 것입니다. 의료 역량 제거라는 대리 과제를 통해, 사전 학습 데이터를 필터링하는 간단한 개입이 대규모로 매우 효과적이고 견고하며 비용 효율적임을 보여줍니다. 데이터 귀속 분석 연구에서 영감을 받아, 문서 전체를 필터링하는 것보다 토큰을 필터링하는 것이 유사한 수준의 원치 않는 역량 감소 효과를 유지하면서 정상 역량에 대한 손실을 더 낮출 수 있음을 입증합니다. 두 개의 크기 차수를 아우르는 모델을 학습시킨 결과, 필터링의 효과는 모델 규모가 커질수록 증가함을 확인했습니다. 가장 큰 모델의 경우, 토큰 필터링을 통해 제거 대상 영역에서의 계산 속도가 7000배 느려졌습니다. 또한 토큰 필터링으로 학습된 모델도 제거 대상 영역에서 정렬이 가능함을 보여줍니다. 이 과정에서 희소 오토인코더를 이용한 토큰 라벨링 방법론과 저비용 고품질 분류기의 지식을 추출하는 방법을 소개합니다. 더불어 충분한 사전 학습 계산 자원이 주어지면 필터링이 노이즈가 있는 라벨에 대해서도 견고함을 발휘할 수 있음을 입증합니다.
English
Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during pretraining itself. On the proxy task of removing medical capabilities, we show that the simple intervention of filtering pretraining data is highly effective, robust, and inexpensive at scale. Inspired by work on data attribution, we show that filtering tokens is more effective than filtering documents, achieving the same hit to undesired capabilities at a lower cost to benign ones. Training models spanning two orders of magnitude, we then demonstrate that filtering gets more effective with scale: for our largest models, token filtering leads to a 7000x compute slowdown on the forget domain. We also show that models trained with token filtering can still be aligned on the forget domain. Along the way, we introduce a methodology for labeling tokens with sparse autoencoders and distilling cheap, high-quality classifiers. We also demonstrate that filtering can be robust to noisy labels with sufficient pretraining compute.