MisSynth: 합성 데이터를 활용한 MISSCI 논리적 오류 분류 성능 향상
MisSynth: Improving MISSCI Logical Fallacies Classification with Synthetic Data
October 30, 2025
저자: Mykhailo Poliakov, Nadiya Shvai
cs.AI
초록
건강 관련 허위정보는 매우 만연하며 잠재적으로 해로울 수 있습니다. 특히 과학적 연구 결과를 왜곡하거나 오해하는 주장인 경우 이를 식별하기 어렵습니다. 본 연구에서는 MISSCI 데이터셋과 프레임워크를 활용하여 합성 데이터 생성과 경량화된 파인튜닝 기법이 대규모 언어 모델(LLM)의 오류 논리 인식 능력에 미치는 영향을 조사합니다. 본 논문에서는 검색 증강 생성(RAG)을 적용해 합성 오류 샘플을 생성한 후 이를 LLM 모델 파인튜닝에 활용하는 MisSynth 파이프라인을 제안합니다. 실험 결과, 파인튜닝된 모델이 기본 기준 모델 대비 정확도에서 상당한 향상을 보였습니다. 예를 들어, LLaMA 3.1 8B 파인튜닝 모델은 MISSCI 테스트 분할에서 기본 기준 대비 35% 이상의 절대적 F1-점수 향상을 달성했습니다. 우리는 제한된 주석 리소스를 증강하기 위해 합성 오류 데이터를 도입하면 계산 자원이 제한된 상황에서도 실제 과학 허위정보 분류 과제에 대한 LLM의 제로샷 분류 성능을 크게 향상시킬 수 있음을 입증합니다. 코드와 합성 데이터셋은 https://github.com/mxpoliakov/MisSynth에서 확인할 수 있습니다.
English
Health-related misinformation is very prevalent and potentially harmful. It
is difficult to identify, especially when claims distort or misinterpret
scientific findings. We investigate the impact of synthetic data generation and
lightweight fine-tuning techniques on the ability of large language models
(LLMs) to recognize fallacious arguments using the MISSCI dataset and
framework. In this work, we propose MisSynth, a pipeline that applies
retrieval-augmented generation (RAG) to produce synthetic fallacy samples,
which are then used to fine-tune an LLM model. Our results show substantial
accuracy gains with fine-tuned models compared to vanilla baselines. For
instance, the LLaMA 3.1 8B fine-tuned model achieved an over 35% F1-score
absolute improvement on the MISSCI test split over its vanilla baseline. We
demonstrate that introducing synthetic fallacy data to augment limited
annotated resources can significantly enhance zero-shot LLM classification
performance on real-world scientific misinformation tasks, even with limited
computational resources. The code and synthetic dataset are available on
https://github.com/mxpoliakov/MisSynth.