Подобно тому, как людям необходимы вакцины, моделям тоже требуется иммунизация: защита моделей от ложных данных.
Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods
May 23, 2025
Авторы: Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis
cs.AI
Аннотация
Генеративные модели ИИ часто обучаются и воспроизводят ложную информацию, присутствующую в их обучающих корпусах. В данной позиционной статье утверждается, что, по аналогии с биологической иммунизацией, при которой контролируемое воздействие ослабленного патогена формирует иммунитет, модели ИИ следует дообучать на небольших, изолированных наборах явно помеченных ложных утверждений, используя их как "вакцину" против дезинформации. Эти тщательно отобранные примеры ложной информации периодически вводятся в процесс дообучения, укрепляя способность модели распознавать и отвергать вводящие в заблуждение утверждения, сохраняя при этом точность на правдивых данных. Иллюстративное исследование показывает, что "иммунизированные" модели генерируют значительно меньше дезинформации по сравнению с базовыми. Насколько нам известно, это первый подход к обучению, который рассматривает проверенные фактами ложные утверждения как контролируемую вакцину, вместо того чтобы полагаться на искажение входных данных или общие сигналы обратной связи от людей, чтобы сделать модели устойчивыми к будущей дезинформации. Мы также описываем этические меры предосторожности и механизмы управления, чтобы обеспечить безопасное использование ложных данных. Иммунизация моделей предлагает проактивную парадигму для согласования систем ИИ с фактологией.
English
Generative AI models often learn and reproduce false information present in
their training corpora. This position paper argues that, analogous to
biological immunization, where controlled exposure to a weakened pathogen
builds immunity, AI models should be fine tuned on small, quarantined sets of
explicitly labeled falsehoods as a "vaccine" against misinformation. These
curated false examples are periodically injected during finetuning,
strengthening the model ability to recognize and reject misleading claims while
preserving accuracy on truthful inputs. An illustrative case study shows that
immunized models generate substantially less misinformation than baselines. To
our knowledge, this is the first training framework that treats fact checked
falsehoods themselves as a supervised vaccine, rather than relying on input
perturbations or generic human feedback signals, to harden models against
future misinformation. We also outline ethical safeguards and governance
controls to ensure the safe use of false data. Model immunization offers a
proactive paradigm for aligning AI systems with factuality.Summary
AI-Generated Summary