CheckThat! 2025におけるClaimIQ:数値的主張の検証におけるプロンプト型と言語モデルのファインチューニングの比較
ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims
September 15, 2025
著者: Anirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury
cs.AI
要旨
本論文では、CLEF 2025 CheckThat! Labのタスク3における我々のシステムを紹介する。このタスクは、検索された証拠を用いて数値的および時間的主張を検証することに焦点を当てている。我々は、命令チューニングされた大規模言語モデル(LLM)を用いたゼロショットプロンプティングと、パラメータ効率の良いLoRAを用いた教師ありファインチューニングという2つの補完的なアプローチを探求する。証拠の品質を向上させるため、全文入力やBM25およびMiniLMを用いたトップk文フィルタリングなど、いくつかの選択戦略を調査する。LoRAでファインチューニングしたLLaMAモデルは、英語の検証セットで高い性能を達成した。しかし、テストセットでの顕著な性能低下は、一般化の課題を浮き彫りにしている。これらの結果は、堅牢な数値的事実検証のための証拠の粒度とモデルの適応の重要性を強調するものである。
English
This paper presents our system for Task 3 of the CLEF 2025 CheckThat! Lab,
which focuses on verifying numerical and temporal claims using retrieved
evidence. We explore two complementary approaches: zero-shot prompting with
instruction-tuned large language models (LLMs) and supervised fine-tuning using
parameter-efficient LoRA. To enhance evidence quality, we investigate several
selection strategies, including full-document input and top-k sentence
filtering using BM25 and MiniLM. Our best-performing model LLaMA fine-tuned
with LoRA achieves strong performance on the English validation set. However, a
notable drop in the test set highlights a generalization challenge. These
findings underscore the importance of evidence granularity and model adaptation
for robust numerical fact verification.