Assim como os seres humanos precisam de vacinas, os modelos também precisam: imunização de modelos para combater falsidades.
Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods
May 23, 2025
Autores: Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis
cs.AI
Resumo
Modelos de IA generativa frequentemente aprendem e reproduzem informações falsas presentes em seus corpora de treinamento. Este artigo de posição argumenta que, de forma análoga à imunização biológica, onde a exposição controlada a um patógeno enfraquecido constrói imunidade, modelos de IA devem ser ajustados em pequenos conjuntos de falsidades explicitamente rotuladas e "quarentenadas", funcionando como uma "vacina" contra a desinformação. Esses exemplos falsos curados são periodicamente injetados durante o ajuste fino, fortalecendo a capacidade do modelo de reconhecer e rejeitar alegações enganosas, enquanto preservam a precisão em entradas verdadeiras. Um estudo de caso ilustrativo mostra que modelos imunizados geram substancialmente menos desinformação do que os baselines. Até onde sabemos, esta é a primeira estrutura de treinamento que trata falsidades verificadas como uma vacina supervisionada, em vez de depender de perturbações de entrada ou sinais genéricos de feedback humano, para tornar os modelos mais resistentes à desinformação futura. Também delineamos salvaguardas éticas e controles de governança para garantir o uso seguro de dados falsos. A imunização de modelos oferece um paradigma proativo para alinhar sistemas de IA com a factualidade.
English
Generative AI models often learn and reproduce false information present in
their training corpora. This position paper argues that, analogous to
biological immunization, where controlled exposure to a weakened pathogen
builds immunity, AI models should be fine tuned on small, quarantined sets of
explicitly labeled falsehoods as a "vaccine" against misinformation. These
curated false examples are periodically injected during finetuning,
strengthening the model ability to recognize and reject misleading claims while
preserving accuracy on truthful inputs. An illustrative case study shows that
immunized models generate substantially less misinformation than baselines. To
our knowledge, this is the first training framework that treats fact checked
falsehoods themselves as a supervised vaccine, rather than relying on input
perturbations or generic human feedback signals, to harden models against
future misinformation. We also outline ethical safeguards and governance
controls to ensure the safe use of false data. Model immunization offers a
proactive paradigm for aligning AI systems with factuality.