Net zoals mensen vaccins nodig hebben, hebben modellen dat ook: modelimmunisatie om onwaarheden te bestrijden.
Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods
May 23, 2025
Auteurs: Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis
cs.AI
Samenvatting
Generatieve AI-modellen leren en reproduceren vaak valse informatie die aanwezig is in hun trainingscorpora. Dit position paper betoogt dat, analoog aan biologische immunisatie, waarbij gecontroleerde blootstelling aan een verzwakte ziekteverwekker immuniteit opbouwt, AI-modellen moeten worden afgestemd op kleine, afgezonderde sets van expliciet gelabelde onwaarheden als een "vaccin" tegen desinformatie. Deze gecureerde valse voorbeelden worden periodiek geïnjecteerd tijdens het afstemmen, waardoor het vermogen van het model om misleidende beweringen te herkennen en te verwerpen wordt versterkt, terwijl de nauwkeurigheid op waarheidsgetrouwe invoer behouden blijft. Een illustratieve casestudy laat zien dat geïmmuniseerde modellen aanzienlijk minder desinformatie genereren dan baseline-modellen. Voor zover wij weten, is dit het eerste trainingsraamwerk dat feitelijk gecontroleerde onwaarheden zelf behandelt als een gesuperviseerd vaccin, in plaats van te vertrouwen op invoerperturbaties of generieke menselijke feedbacksignalen, om modellen te versterken tegen toekomstige desinformatie. We schetsen ook ethische waarborgen en governance-controles om het veilige gebruik van valse gegevens te waarborgen. Modelimmunisatie biedt een proactief paradigma voor het afstemmen van AI-systemen op feitelijkheid.
English
Generative AI models often learn and reproduce false information present in
their training corpora. This position paper argues that, analogous to
biological immunization, where controlled exposure to a weakened pathogen
builds immunity, AI models should be fine tuned on small, quarantined sets of
explicitly labeled falsehoods as a "vaccine" against misinformation. These
curated false examples are periodically injected during finetuning,
strengthening the model ability to recognize and reject misleading claims while
preserving accuracy on truthful inputs. An illustrative case study shows that
immunized models generate substantially less misinformation than baselines. To
our knowledge, this is the first training framework that treats fact checked
falsehoods themselves as a supervised vaccine, rather than relying on input
perturbations or generic human feedback signals, to harden models against
future misinformation. We also outline ethical safeguards and governance
controls to ensure the safe use of false data. Model immunization offers a
proactive paradigm for aligning AI systems with factuality.