ChatPaper.aiChatPaper

Proprio come gli esseri umani hanno bisogno di vaccini, lo stesso vale per i modelli: l'immunizzazione dei modelli per contrastare le falsità.

Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods

May 23, 2025
Autori: Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis
cs.AI

Abstract

I modelli di intelligenza artificiale generativa spesso apprendono e riproducono informazioni false presenti nei loro corpora di addestramento. Questo position paper sostiene che, analogamente all'immunizzazione biologica, in cui l'esposizione controllata a un patogeno indebolito sviluppa l'immunità, i modelli di IA dovrebbero essere ottimizzati su piccoli set di falsità esplicitamente etichettate e messe in quarantena, come un "vaccino" contro la disinformazione. Questi esempi falsi curati vengono periodicamente iniettati durante l'ottimizzazione, rafforzando la capacità del modello di riconoscere e respingere affermazioni fuorvianti, preservando al contempo l'accuratezza sugli input veritieri. Uno studio di caso illustrativo dimostra che i modelli immunizzati generano sostanzialmente meno disinformazione rispetto ai modelli di base. Per quanto ne sappiamo, questo è il primo framework di addestramento che tratta le falsità verificate come un vaccino supervisionato, piuttosto che affidarsi a perturbazioni degli input o a segnali generici di feedback umano, per rafforzare i modelli contro la disinformazione futura. Delineiamo inoltre salvaguardie etiche e controlli di governance per garantire l'uso sicuro di dati falsi. L'immunizzazione dei modelli offre un paradigma proattivo per allineare i sistemi di IA alla veridicità.
English
Generative AI models often learn and reproduce false information present in their training corpora. This position paper argues that, analogous to biological immunization, where controlled exposure to a weakened pathogen builds immunity, AI models should be fine tuned on small, quarantined sets of explicitly labeled falsehoods as a "vaccine" against misinformation. These curated false examples are periodically injected during finetuning, strengthening the model ability to recognize and reject misleading claims while preserving accuracy on truthful inputs. An illustrative case study shows that immunized models generate substantially less misinformation than baselines. To our knowledge, this is the first training framework that treats fact checked falsehoods themselves as a supervised vaccine, rather than relying on input perturbations or generic human feedback signals, to harden models against future misinformation. We also outline ethical safeguards and governance controls to ensure the safe use of false data. Model immunization offers a proactive paradigm for aligning AI systems with factuality.
PDF52May 29, 2025