Tout comme les humains ont besoin de vaccins, les modèles aussi : l'immunisation des modèles pour lutter contre les fausses informations.
Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods
May 23, 2025
Auteurs: Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis
cs.AI
Résumé
Les modèles d'IA générative apprennent et reproduisent souvent des informations erronées présentes dans leurs corpus d'entraînement. Ce document de position soutient que, par analogie avec l'immunisation biologique, où une exposition contrôlée à un agent pathogène atténué renforce l'immunité, les modèles d'IA devraient être affinés sur de petits ensembles de faussetés explicitement étiquetées et mises en quarantaine, agissant comme un "vaccin" contre la désinformation. Ces exemples de faussetés soigneusement sélectionnés sont injectés périodiquement lors de l'affinage, renforçant la capacité du modèle à reconnaître et à rejeter les affirmations trompeuses tout en préservant sa précision sur les entrées véridiques. Une étude de cas illustrative montre que les modèles immunisés génèrent nettement moins de désinformation que les modèles de référence. À notre connaissance, il s'agit du premier cadre d'entraînement qui traite les faussetés vérifiées elles-mêmes comme un vaccin supervisé, plutôt que de s'appuyer sur des perturbations d'entrée ou des signaux génériques de retour humain, pour renforcer les modèles contre la désinformation future. Nous décrivons également des garde-fous éthiques et des contrôles de gouvernance pour garantir l'utilisation sûre des données erronées. L'immunisation des modèles offre un paradigme proactif pour aligner les systèmes d'IA sur la factualité.
English
Generative AI models often learn and reproduce false information present in
their training corpora. This position paper argues that, analogous to
biological immunization, where controlled exposure to a weakened pathogen
builds immunity, AI models should be fine tuned on small, quarantined sets of
explicitly labeled falsehoods as a "vaccine" against misinformation. These
curated false examples are periodically injected during finetuning,
strengthening the model ability to recognize and reject misleading claims while
preserving accuracy on truthful inputs. An illustrative case study shows that
immunized models generate substantially less misinformation than baselines. To
our knowledge, this is the first training framework that treats fact checked
falsehoods themselves as a supervised vaccine, rather than relying on input
perturbations or generic human feedback signals, to harden models against
future misinformation. We also outline ethical safeguards and governance
controls to ensure the safe use of false data. Model immunization offers a
proactive paradigm for aligning AI systems with factuality.Summary
AI-Generated Summary