ChatPaper.aiChatPaper

MisSynth: Verbesserung der MISSCI-Logikfehlerklassifizierung mit synthetischen Daten

MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data

October 30, 2025
papers.authors: Mykhailo Poliakov, Nadiya Shvai
cs.AI

papers.abstract

Gesundheitsbezogene Fehlinformationen sind weit verbreitet und potenziell schädlich. Ihre Identifizierung ist schwierig, insbesondere wenn Behauptungen wissenschaftliche Erkenntnisse verzerren oder fehlinterpretieren. Wir untersuchen die Auswirkungen von synthetischer Datengenerierung und leichtgewichtigen Fine-Tuning-Techniken auf die Fähigkeit von Large Language Models (LLMs), fehlerhafte Argumente zu erkennen, unter Verwendung des MISSCI-Datensatzes und -Frameworks. In dieser Arbeit schlagen wir MisSynth vor, eine Pipeline, die Retrieval-Augmented Generation (RAG) anwendet, um synthetische Trugschluss-Beispiele zu erzeugen, die dann zum Fine-Tuning eines LLM-Modells verwendet werden. Unsere Ergebnisse zeigen substantiale Genauigkeitssteigerungen bei den fine-getunten Modellen im Vergleich zu Standard-Baselines. So erzielte das feinabgestimmte LLaMA 3.1 8B Modell beispielsweise eine absolute Verbesserung des F1-Scores von über 35 % auf dem MISSCI-Testsplit gegenüber seiner Standard-Baseline. Wir zeigen, dass die Einführung synthetischer Trugschluss-Daten zur Erweiterung begrenzter annotierter Ressourcen die Zero-Shot-Klassifikationsleistung von LLMs bei realen Aufgaben zur wissenschaftlichen Fehlinformation signifikant verbessern kann, selbst mit begrenzten Rechenressourcen. Der Code und der synthetische Datensatz sind verfügbar unter https://github.com/mxpoliakov/MisSynth.
English
Health-related misinformation is very prevalent and potentially harmful. It is difficult to identify, especially when claims distort or misinterpret scientific findings. We investigate the impact of synthetic data generation and lightweight fine-tuning techniques on the ability of large language models (LLMs) to recognize fallacious arguments using the MISSCI dataset and framework. In this work, we propose MisSynth, a pipeline that applies retrieval-augmented generation (RAG) to produce synthetic fallacy samples, which are then used to fine-tune an LLM model. Our results show substantial accuracy gains with fine-tuned models compared to vanilla baselines. For instance, the LLaMA 3.1 8B fine-tuned model achieved an over 35% F1-score absolute improvement on the MISSCI test split over its vanilla baseline. We demonstrate that introducing synthetic fallacy data to augment limited annotated resources can significantly enhance zero-shot LLM classification performance on real-world scientific misinformation tasks, even with limited computational resources. The code and synthetic dataset are available on https://github.com/mxpoliakov/MisSynth.
PDF31February 7, 2026