Ignorância Profunda: A Filtragem de Dados de Pré-treinamento Constrói Salvaguardas à Prova de Manipulação em LLMs de Pesos Abertos
Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs
August 8, 2025
Autores: Kyle O'Brien, Stephen Casper, Quentin Anthony, Tomek Korbak, Robert Kirk, Xander Davies, Ishan Mishra, Geoffrey Irving, Yarin Gal, Stella Biderman
cs.AI
Resumo
Sistemas de IA de pesos abertos oferecem benefícios únicos, incluindo maior transparência, pesquisa aberta e acesso descentralizado. No entanto, eles são vulneráveis a ataques de manipulação que podem eliciar eficientemente comportamentos prejudiciais ao modificar pesos ou ativações. Atualmente, ainda não existe uma ciência robusta de gerenciamento de riscos para modelos de pesos abertos. Métodos existentes de ajuste fino de segurança e outras técnicas pós-treinamento têm dificuldade em tornar LLMs resistentes a mais do que algumas dezenas de passos de ajuste fino adversarial. Neste artigo, investigamos se a filtragem de textos sobre tópicos de uso duplo dos dados de treinamento pode prevenir capacidades indesejadas e servir como uma salvaguarda mais resistente à manipulação. Introduzimos um pipeline de múltiplos estágios para filtragem escalável de dados e mostramos que ele oferece um método viável e eficaz para minimizar o conhecimento proxy de ameaças biológicas em LLMs. Pré-treinamos vários modelos de 6,9 bilhões de parâmetros do zero e descobrimos que eles exibem resistência substancial a ataques de ajuste fino adversarial em até 10.000 passos e 300 milhões de tokens de texto relacionado a ameaças biológicas — superando as linhas de base pós-treinamento existentes em mais de uma ordem de grandeza — sem degradação observada em capacidades não relacionadas. No entanto, embora os modelos filtrados não tenham conhecimento perigoso internalizado, descobrimos que eles ainda podem aproveitar essas informações quando fornecidas em contexto (por exemplo, via aumento de ferramentas de busca), demonstrando a necessidade de uma abordagem de defesa em profundidade. No geral, esses achados ajudam a estabelecer a curadoria de dados de pré-treinamento como uma camada promissora de defesa para sistemas de IA de pesos abertos.
English
Open-weight AI systems offer unique benefits, including enhanced
transparency, open research, and decentralized access. However, they are
vulnerable to tampering attacks which can efficiently elicit harmful behaviors
by modifying weights or activations. Currently, there is not yet a robust
science of open-weight model risk management. Existing safety fine-tuning
methods and other post-training techniques have struggled to make LLMs
resistant to more than a few dozen steps of adversarial fine-tuning. In this
paper, we investigate whether filtering text about dual-use topics from
training data can prevent unwanted capabilities and serve as a more
tamper-resistant safeguard. We introduce a multi-stage pipeline for scalable
data filtering and show that it offers a tractable and effective method for
minimizing biothreat proxy knowledge in LLMs. We pretrain multiple
6.9B-parameter models from scratch and find that they exhibit substantial
resistance to adversarial fine-tuning attacks on up to 10,000 steps and 300M
tokens of biothreat-related text -- outperforming existing post-training
baselines by over an order of magnitude -- with no observed degradation to
unrelated capabilities. However, while filtered models lack internalized
dangerous knowledge, we find that they can still leverage such information when
it is provided in context (e.g., via search tool augmentation), demonstrating a
need for a defense-in-depth approach. Overall, these findings help to establish
pretraining data curation as a promising layer of defense for open-weight AI
systems.