ChatPaper.aiChatPaper

トークンレベルデータフィルタリングによる能力形成

Shaping capabilities with token-level data filtering

January 29, 2026
著者: Neil Rathi, Alec Radford
cs.AI

要旨

現在、言語モデルにおける望ましくない能力の低減に向けたアプローチは、その多くが事後的な対応に留まっており、敵対的な攻撃によって容易に回避され得る。これに代わる自然な方法として、事前学習の段階そのものから能力形成を方向付けることが考えられる。本研究では、医療能力の除去という代理タスクにおいて、事前学習データのフィルタリングという単純な介入が、大規模な適用において極めて効果的、頑健、かつ低コストであることを示す。データ属性分析の研究に着想を得て、文書全体のフィルタリングよりもトークンレベルでのフィルタリングがより効果的であることを明らかにする。これは、良性の能力への影響を最小限に抑えつつ、同等の望ましくない能力の抑制を実現する。2桁の規模にわたるモデルを学習させた結果、フィルタリングの効果はモデル規模の拡大に伴って高まることが示された。最大規模のモデルでは、トークンフィルタリングにより、除去対象領域における計算速度が7000倍も低下した。また、トークンフィルタリングで学習されたモデルであっても、除去対象領域において整合性を取ることが可能であることを示す。この過程で、スパースオートエンコーダを用いたトークンラベリング手法と、低コストで高品質な分類器を蒸留する手法を提案する。さらに、事前学習の計算資源が十分であれば、フィルタリングはノイジーなラベルに対しても頑健であることを実証する。
English
Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during pretraining itself. On the proxy task of removing medical capabilities, we show that the simple intervention of filtering pretraining data is highly effective, robust, and inexpensive at scale. Inspired by work on data attribution, we show that filtering tokens is more effective than filtering documents, achieving the same hit to undesired capabilities at a lower cost to benign ones. Training models spanning two orders of magnitude, we then demonstrate that filtering gets more effective with scale: for our largest models, token filtering leads to a 7000x compute slowdown on the forget domain. We also show that models trained with token filtering can still be aligned on the forget domain. Along the way, we introduce a methodology for labeling tokens with sparse autoencoders and distilling cheap, high-quality classifiers. We also demonstrate that filtering can be robust to noisy labels with sufficient pretraining compute.
PDF113January 31, 2026