Ignorance Profonde : Le Filtrage des Données de Prétraitement Intègre des Mesures de Protection Résistantes à la Manipulation dans les LLMs à Poids Ouvert
Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs
August 8, 2025
papers.authors: Kyle O'Brien, Stephen Casper, Quentin Anthony, Tomek Korbak, Robert Kirk, Xander Davies, Ishan Mishra, Geoffrey Irving, Yarin Gal, Stella Biderman
cs.AI
papers.abstract
Les systèmes d'IA à poids ouverts offrent des avantages uniques, notamment une transparence accrue, une recherche ouverte et un accès décentralisé. Cependant, ils sont vulnérables aux attaques de manipulation qui peuvent efficacement provoquer des comportements nuisibles en modifiant les poids ou les activations. Actuellement, il n'existe pas encore une science robuste de la gestion des risques pour les modèles à poids ouverts. Les méthodes existantes de fine-tuning de sécurité et d'autres techniques post-entraînement ont eu du mal à rendre les LLM résistants à plus de quelques dizaines d'étapes de fine-tuning adversaire. Dans cet article, nous étudions si le filtrage de textes sur des sujets à double usage dans les données d'entraînement peut empêcher des capacités indésirables et servir de protection plus résistante à la manipulation. Nous introduisons un pipeline multi-étapes pour le filtrage scalable des données et montrons qu'il offre une méthode praticable et efficace pour minimiser les connaissances proxy sur les menaces biologiques dans les LLM. Nous pré-entraînons plusieurs modèles de 6,9 milliards de paramètres à partir de zéro et constatons qu'ils présentent une résistance substantielle aux attaques de fine-tuning adversaire sur jusqu'à 10 000 étapes et 300 millions de tokens de texte lié aux menaces biologiques — surpassant les références post-entraînement existantes de plus d'un ordre de grandeur — sans dégradation observée des capacités non liées. Cependant, bien que les modèles filtrés ne possèdent pas de connaissances dangereuses internalisées, nous constatons qu'ils peuvent toujours exploiter ces informations lorsqu'elles sont fournies en contexte (par exemple, via une augmentation par outil de recherche), démontrant la nécessité d'une approche de défense en profondeur. Globalement, ces résultats contribuent à établir la curation des données de pré-entraînement comme une couche de défense prometteuse pour les systèmes d'IA à poids ouverts.
English
Open-weight AI systems offer unique benefits, including enhanced
transparency, open research, and decentralized access. However, they are
vulnerable to tampering attacks which can efficiently elicit harmful behaviors
by modifying weights or activations. Currently, there is not yet a robust
science of open-weight model risk management. Existing safety fine-tuning
methods and other post-training techniques have struggled to make LLMs
resistant to more than a few dozen steps of adversarial fine-tuning. In this
paper, we investigate whether filtering text about dual-use topics from
training data can prevent unwanted capabilities and serve as a more
tamper-resistant safeguard. We introduce a multi-stage pipeline for scalable
data filtering and show that it offers a tractable and effective method for
minimizing biothreat proxy knowledge in LLMs. We pretrain multiple
6.9B-parameter models from scratch and find that they exhibit substantial
resistance to adversarial fine-tuning attacks on up to 10,000 steps and 300M
tokens of biothreat-related text -- outperforming existing post-training
baselines by over an order of magnitude -- with no observed degradation to
unrelated capabilities. However, while filtered models lack internalized
dangerous knowledge, we find that they can still leverage such information when
it is provided in context (e.g., via search tool augmentation), demonstrating a
need for a defense-in-depth approach. Overall, these findings help to establish
pretraining data curation as a promising layer of defense for open-weight AI
systems.