ChatPaper.aiChatPaper

Ignorance Profonde : Le Filtrage des Données de Prétraitement Intègre des Mesures de Protection Résistantes à la Manipulation dans les LLMs à Poids Ouvert

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

August 8, 2025
papers.authors: Kyle O'Brien, Stephen Casper, Quentin Anthony, Tomek Korbak, Robert Kirk, Xander Davies, Ishan Mishra, Geoffrey Irving, Yarin Gal, Stella Biderman
cs.AI

papers.abstract

Les systèmes d'IA à poids ouverts offrent des avantages uniques, notamment une transparence accrue, une recherche ouverte et un accès décentralisé. Cependant, ils sont vulnérables aux attaques de manipulation qui peuvent efficacement provoquer des comportements nuisibles en modifiant les poids ou les activations. Actuellement, il n'existe pas encore une science robuste de la gestion des risques pour les modèles à poids ouverts. Les méthodes existantes de fine-tuning de sécurité et d'autres techniques post-entraînement ont eu du mal à rendre les LLM résistants à plus de quelques dizaines d'étapes de fine-tuning adversaire. Dans cet article, nous étudions si le filtrage de textes sur des sujets à double usage dans les données d'entraînement peut empêcher des capacités indésirables et servir de protection plus résistante à la manipulation. Nous introduisons un pipeline multi-étapes pour le filtrage scalable des données et montrons qu'il offre une méthode praticable et efficace pour minimiser les connaissances proxy sur les menaces biologiques dans les LLM. Nous pré-entraînons plusieurs modèles de 6,9 milliards de paramètres à partir de zéro et constatons qu'ils présentent une résistance substantielle aux attaques de fine-tuning adversaire sur jusqu'à 10 000 étapes et 300 millions de tokens de texte lié aux menaces biologiques — surpassant les références post-entraînement existantes de plus d'un ordre de grandeur — sans dégradation observée des capacités non liées. Cependant, bien que les modèles filtrés ne possèdent pas de connaissances dangereuses internalisées, nous constatons qu'ils peuvent toujours exploiter ces informations lorsqu'elles sont fournies en contexte (par exemple, via une augmentation par outil de recherche), démontrant la nécessité d'une approche de défense en profondeur. Globalement, ces résultats contribuent à établir la curation des données de pré-entraînement comme une couche de défense prometteuse pour les systèmes d'IA à poids ouverts.
English
Open-weight AI systems offer unique benefits, including enhanced transparency, open research, and decentralized access. However, they are vulnerable to tampering attacks which can efficiently elicit harmful behaviors by modifying weights or activations. Currently, there is not yet a robust science of open-weight model risk management. Existing safety fine-tuning methods and other post-training techniques have struggled to make LLMs resistant to more than a few dozen steps of adversarial fine-tuning. In this paper, we investigate whether filtering text about dual-use topics from training data can prevent unwanted capabilities and serve as a more tamper-resistant safeguard. We introduce a multi-stage pipeline for scalable data filtering and show that it offers a tractable and effective method for minimizing biothreat proxy knowledge in LLMs. We pretrain multiple 6.9B-parameter models from scratch and find that they exhibit substantial resistance to adversarial fine-tuning attacks on up to 10,000 steps and 300M tokens of biothreat-related text -- outperforming existing post-training baselines by over an order of magnitude -- with no observed degradation to unrelated capabilities. However, while filtered models lack internalized dangerous knowledge, we find that they can still leverage such information when it is provided in context (e.g., via search tool augmentation), demonstrating a need for a defense-in-depth approach. Overall, these findings help to establish pretraining data curation as a promising layer of defense for open-weight AI systems.
PDF52August 12, 2025