Genau wie Menschen Impfungen benötigen, brauchen auch Modelle sie: Modellimmunisierung zur Bekämpfung von Falschinformationen.
Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods
May 23, 2025
Autoren: Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis
cs.AI
Zusammenfassung
Generative KI-Modelle lernen und reproduzieren oft falsche Informationen, die in ihren Trainingskorpora enthalten sind. Dieses Positionspapier argumentiert, dass, analog zur biologischen Immunisierung, bei der eine kontrollierte Exposition gegenüber einem abgeschwächten Erreger Immunität aufbaut, KI-Modelle auf kleinen, abgeschotteten Datensätzen explizit gekennzeichneter Falschinformationen feinabgestimmt werden sollten, um sie als „Impfstoff“ gegen Fehlinformationen zu nutzen. Diese kuratierten Beispiele für Falschinformationen werden während des Feinabstimmungsprozesses periodisch injiziert, wodurch die Fähigkeit des Modells gestärkt wird, irreführende Behauptungen zu erkennen und abzulehnen, während die Genauigkeit bei wahrheitsgemäßen Eingaben erhalten bleibt. Eine illustrative Fallstudie zeigt, dass immunisierte Modelle deutlich weniger Fehlinformationen erzeugen als Baseline-Modelle. Unseres Wissens ist dies der erste Trainingsrahmen, der faktisch überprüfte Falschinformationen selbst als überwachten Impfstoff behandelt, anstatt sich auf Eingabestörungen oder generische menschliche Feedback-Signale zu verlassen, um Modelle gegen zukünftige Fehlinformationen zu härten. Wir skizzieren auch ethische Sicherheitsvorkehrungen und Governance-Kontrollen, um den sicheren Umgang mit falschen Daten zu gewährleisten. Die Modellimmunisierung bietet ein proaktives Paradigma, um KI-Systeme mit Fakten zu vereinbaren.
English
Generative AI models often learn and reproduce false information present in
their training corpora. This position paper argues that, analogous to
biological immunization, where controlled exposure to a weakened pathogen
builds immunity, AI models should be fine tuned on small, quarantined sets of
explicitly labeled falsehoods as a "vaccine" against misinformation. These
curated false examples are periodically injected during finetuning,
strengthening the model ability to recognize and reject misleading claims while
preserving accuracy on truthful inputs. An illustrative case study shows that
immunized models generate substantially less misinformation than baselines. To
our knowledge, this is the first training framework that treats fact checked
falsehoods themselves as a supervised vaccine, rather than relying on input
perturbations or generic human feedback signals, to harden models against
future misinformation. We also outline ethical safeguards and governance
controls to ensure the safe use of false data. Model immunization offers a
proactive paradigm for aligning AI systems with factuality.Summary
AI-Generated Summary