MisSynth: 合成データによるMISSCI論理的誤謬分類の改善
MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data
October 30, 2025
著者: Mykhailo Poliakov, Nadiya Shvai
cs.AI
要旨
健康関連の誤情報は非常に広まっており、潜在的に有害である。特に科学的知見を歪めたり誤解釈したりする主張の場合、その識別は困難を伴う。本研究では、MISSCIデータセットとフレームワークを用いて、大規模言語モデル(LLM)が誤った論法を認識する能力に対する合成データ生成と軽量ファインチューニング技術の影響を調査する。本論文では、検索拡張生成(RAG)を適用して合成の誤謬サンプルを生成し、それをLLMモデルのファインチューニングに利用するMisSynthパイプラインを提案する。実験結果から、ファインチューニングしたモデルはベースラインと比較して精度が大幅に向上することが示された。例えば、LLaMA 3.1 8Bモデルをファインチューニングした場合、MISSCIテスト分割におけるF1スコアがベースライン比で35%以上の絶対改善を達成した。限られた注釈付きリソースを補完するために合成誤謬データを導入することで、計算資源が限られた環境であっても、実世界の科学的誤情報タスクにおけるゼロショットLLM分類性能を大幅に向上できることを実証する。コードと合成データセットはhttps://github.com/mxpoliakov/MisSynth で公開されている。
English
Health-related misinformation is very prevalent and potentially harmful. It
is difficult to identify, especially when claims distort or misinterpret
scientific findings. We investigate the impact of synthetic data generation and
lightweight fine-tuning techniques on the ability of large language models
(LLMs) to recognize fallacious arguments using the MISSCI dataset and
framework. In this work, we propose MisSynth, a pipeline that applies
retrieval-augmented generation (RAG) to produce synthetic fallacy samples,
which are then used to fine-tune an LLM model. Our results show substantial
accuracy gains with fine-tuned models compared to vanilla baselines. For
instance, the LLaMA 3.1 8B fine-tuned model achieved an over 35% F1-score
absolute improvement on the MISSCI test split over its vanilla baseline. We
demonstrate that introducing synthetic fallacy data to augment limited
annotated resources can significantly enhance zero-shot LLM classification
performance on real-world scientific misinformation tasks, even with limited
computational resources. The code and synthetic dataset are available on
https://github.com/mxpoliakov/MisSynth.