Al igual que los humanos necesitan vacunas, los modelos también: inmunización de modelos para combatir falsedades.
Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods
May 23, 2025
Autores: Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis
cs.AI
Resumen
Los modelos de IA generativa a menudo aprenden y reproducen información falsa presente en sus corpus de entrenamiento. Este documento de posición argumenta que, de manera análoga a la inmunización biológica, donde la exposición controlada a un patógeno debilitado genera inmunidad, los modelos de IA deberían ajustarse finamente en pequeños conjuntos cuarentenados de falsedades explícitamente etiquetadas como una "vacuna" contra la desinformación. Estos ejemplos falsos curados se inyectan periódicamente durante el ajuste fino, fortaleciendo la capacidad del modelo para reconocer y rechazar afirmaciones engañosas mientras se preserva la precisión en entradas veraces. Un estudio de caso ilustrativo muestra que los modelos inmunizados generan sustancialmente menos desinformación que los modelos de referencia. Hasta donde sabemos, este es el primer marco de entrenamiento que trata las falsedades verificadas como una vacuna supervisada, en lugar de depender de perturbaciones en la entrada o señales genéricas de retroalimentación humana, para fortalecer los modelos contra la desinformación futura. También delineamos salvaguardias éticas y controles de gobernanza para garantizar el uso seguro de datos falsos. La inmunización de modelos ofrece un paradigma proactivo para alinear los sistemas de IA con la veracidad.
English
Generative AI models often learn and reproduce false information present in
their training corpora. This position paper argues that, analogous to
biological immunization, where controlled exposure to a weakened pathogen
builds immunity, AI models should be fine tuned on small, quarantined sets of
explicitly labeled falsehoods as a "vaccine" against misinformation. These
curated false examples are periodically injected during finetuning,
strengthening the model ability to recognize and reject misleading claims while
preserving accuracy on truthful inputs. An illustrative case study shows that
immunized models generate substantially less misinformation than baselines. To
our knowledge, this is the first training framework that treats fact checked
falsehoods themselves as a supervised vaccine, rather than relying on input
perturbations or generic human feedback signals, to harden models against
future misinformation. We also outline ethical safeguards and governance
controls to ensure the safe use of false data. Model immunization offers a
proactive paradigm for aligning AI systems with factuality.Summary
AI-Generated Summary