ChatPaper.aiChatPaper

深い無知:事前学習データのフィルタリングがオープンウェイトLLMに改ざん耐性のある保護機構を構築する

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

August 8, 2025
著者: Kyle O'Brien, Stephen Casper, Quentin Anthony, Tomek Korbak, Robert Kirk, Xander Davies, Ishan Mishra, Geoffrey Irving, Yarin Gal, Stella Biderman
cs.AI

要旨

オープンウェイトAIシステムは、透明性の向上、オープンな研究、分散型アクセスといった独自の利点を提供する。しかし、重みや活性化関数の改変を通じて有害な振る舞いを効率的に引き起こす改ざん攻撃に対して脆弱である。現在、オープンウェイトモデルのリスク管理に関する確固たる科学はまだ確立されていない。既存の安全性微調整手法やその他の学習後技術は、数十ステップ以上の敵対的微調整に対してLLMを耐性化することに苦戦している。本論文では、デュアルユーストピックに関するテキストを学習データからフィルタリングすることで、望ましくない能力を防止し、より改ざん耐性の高い保護手段として機能するかどうかを調査する。スケーラブルなデータフィルタリングのための多段階パイプラインを導入し、LLMにおけるバイオ脅威代理知識を最小化するための実用的かつ効果的な方法を提供することを示す。6.9Bパラメータの複数モデルをゼロから事前学習し、最大10,000ステップおよび300Mトークンのバイオ脅威関連テキストに対する敵対的微調整攻撃に対して大幅な耐性を示すことを確認した。これは、既存の学習後ベースラインを1桁以上上回る性能であり、無関係な能力の劣化は観察されなかった。しかし、フィルタリングされたモデルは内部化された危険な知識を欠いているものの、文脈内で提供された場合(例えば、検索ツールの拡張を通じて)、そのような情報を活用できることが判明し、多層防御アプローチの必要性が示された。全体として、これらの知見は、オープンウェイトAIシステムの防御層として事前学習データキュレーションが有望であることを確立するのに役立つ。
English
Open-weight AI systems offer unique benefits, including enhanced transparency, open research, and decentralized access. However, they are vulnerable to tampering attacks which can efficiently elicit harmful behaviors by modifying weights or activations. Currently, there is not yet a robust science of open-weight model risk management. Existing safety fine-tuning methods and other post-training techniques have struggled to make LLMs resistant to more than a few dozen steps of adversarial fine-tuning. In this paper, we investigate whether filtering text about dual-use topics from training data can prevent unwanted capabilities and serve as a more tamper-resistant safeguard. We introduce a multi-stage pipeline for scalable data filtering and show that it offers a tractable and effective method for minimizing biothreat proxy knowledge in LLMs. We pretrain multiple 6.9B-parameter models from scratch and find that they exhibit substantial resistance to adversarial fine-tuning attacks on up to 10,000 steps and 300M tokens of biothreat-related text -- outperforming existing post-training baselines by over an order of magnitude -- with no observed degradation to unrelated capabilities. However, while filtered models lack internalized dangerous knowledge, we find that they can still leverage such information when it is provided in context (e.g., via search tool augmentation), demonstrating a need for a defense-in-depth approach. Overall, these findings help to establish pretraining data curation as a promising layer of defense for open-weight AI systems.
PDF52August 12, 2025