人間がワクチンを必要とするように、モデルも必要とする:虚偽に対抗するためのモデル免疫化
Just as Humans Need Vaccines, So Do Models: Model Immunization to Combat Falsehoods
May 23, 2025
著者: Shaina Raza, Rizwan Qureshi, Marcelo Lotif, Aman Chadha, Deval Pandya, Christos Emmanouilidis
cs.AI
要旨
生成AIモデルは、その学習コーパスに含まれる誤った情報を学習し、再現することが多い。本ポジションペーパーでは、生物学的免疫化(弱毒化した病原体に制御された形で曝露することで免疫を構築するプロセス)と同様に、AIモデルを明示的にラベル付けされた誤情報の小規模な隔離セットでファインチューニングし、誤情報に対する「ワクチン」として活用すべきだと主張する。これらの厳選された誤った例をファインチューニング中に定期的に注入することで、モデルが誤解を招く主張を認識し拒否する能力を強化しつつ、真実の入力に対する精度を維持する。実証的なケーススタディでは、免疫化されたモデルがベースラインと比べて大幅に少ない誤情報を生成することが示されている。私たちの知る限り、これは、入力の摂動や一般的な人間のフィードバック信号に依存するのではなく、ファクトチェックされた誤情報そのものを教師ありのワクチンとして扱い、モデルを将来の誤情報に対して強化する初めてのトレーニングフレームワークである。また、誤ったデータの安全な使用を確保するための倫理的保護策とガバナンス制御についても概説する。モデルの免疫化は、AIシステムを事実性に整合させるための先制的なパラダイムを提供する。
English
Generative AI models often learn and reproduce false information present in
their training corpora. This position paper argues that, analogous to
biological immunization, where controlled exposure to a weakened pathogen
builds immunity, AI models should be fine tuned on small, quarantined sets of
explicitly labeled falsehoods as a "vaccine" against misinformation. These
curated false examples are periodically injected during finetuning,
strengthening the model ability to recognize and reject misleading claims while
preserving accuracy on truthful inputs. An illustrative case study shows that
immunized models generate substantially less misinformation than baselines. To
our knowledge, this is the first training framework that treats fact checked
falsehoods themselves as a supervised vaccine, rather than relying on input
perturbations or generic human feedback signals, to harden models against
future misinformation. We also outline ethical safeguards and governance
controls to ensure the safe use of false data. Model immunization offers a
proactive paradigm for aligning AI systems with factuality.Summary
AI-Generated Summary