ChatPaper.aiChatPaper

Ignorância Profunda: A Filtragem de Dados de Pré-treinamento Constrói Salvaguardas à Prova de Manipulação em LLMs de Pesos Abertos

Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs

August 8, 2025
Autores: Kyle O'Brien, Stephen Casper, Quentin Anthony, Tomek Korbak, Robert Kirk, Xander Davies, Ishan Mishra, Geoffrey Irving, Yarin Gal, Stella Biderman
cs.AI

Resumo

Sistemas de IA de pesos abertos oferecem benefícios únicos, incluindo maior transparência, pesquisa aberta e acesso descentralizado. No entanto, eles são vulneráveis a ataques de manipulação que podem eliciar eficientemente comportamentos prejudiciais ao modificar pesos ou ativações. Atualmente, ainda não existe uma ciência robusta de gerenciamento de riscos para modelos de pesos abertos. Métodos existentes de ajuste fino de segurança e outras técnicas pós-treinamento têm dificuldade em tornar LLMs resistentes a mais do que algumas dezenas de passos de ajuste fino adversarial. Neste artigo, investigamos se a filtragem de textos sobre tópicos de uso duplo dos dados de treinamento pode prevenir capacidades indesejadas e servir como uma salvaguarda mais resistente à manipulação. Introduzimos um pipeline de múltiplos estágios para filtragem escalável de dados e mostramos que ele oferece um método viável e eficaz para minimizar o conhecimento proxy de ameaças biológicas em LLMs. Pré-treinamos vários modelos de 6,9 bilhões de parâmetros do zero e descobrimos que eles exibem resistência substancial a ataques de ajuste fino adversarial em até 10.000 passos e 300 milhões de tokens de texto relacionado a ameaças biológicas — superando as linhas de base pós-treinamento existentes em mais de uma ordem de grandeza — sem degradação observada em capacidades não relacionadas. No entanto, embora os modelos filtrados não tenham conhecimento perigoso internalizado, descobrimos que eles ainda podem aproveitar essas informações quando fornecidas em contexto (por exemplo, via aumento de ferramentas de busca), demonstrando a necessidade de uma abordagem de defesa em profundidade. No geral, esses achados ajudam a estabelecer a curadoria de dados de pré-treinamento como uma camada promissora de defesa para sistemas de IA de pesos abertos.
English
Open-weight AI systems offer unique benefits, including enhanced transparency, open research, and decentralized access. However, they are vulnerable to tampering attacks which can efficiently elicit harmful behaviors by modifying weights or activations. Currently, there is not yet a robust science of open-weight model risk management. Existing safety fine-tuning methods and other post-training techniques have struggled to make LLMs resistant to more than a few dozen steps of adversarial fine-tuning. In this paper, we investigate whether filtering text about dual-use topics from training data can prevent unwanted capabilities and serve as a more tamper-resistant safeguard. We introduce a multi-stage pipeline for scalable data filtering and show that it offers a tractable and effective method for minimizing biothreat proxy knowledge in LLMs. We pretrain multiple 6.9B-parameter models from scratch and find that they exhibit substantial resistance to adversarial fine-tuning attacks on up to 10,000 steps and 300M tokens of biothreat-related text -- outperforming existing post-training baselines by over an order of magnitude -- with no observed degradation to unrelated capabilities. However, while filtered models lack internalized dangerous knowledge, we find that they can still leverage such information when it is provided in context (e.g., via search tool augmentation), demonstrating a need for a defense-in-depth approach. Overall, these findings help to establish pretraining data curation as a promising layer of defense for open-weight AI systems.
PDF52August 12, 2025