ChatPaper.aiChatPaper

ClaimIQ bei CheckThat! 2025: Vergleich von geprompteten und feinabgestimmten Sprachmodellen zur Überprüfung numerischer Behauptungen

ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims

September 15, 2025
papers.authors: Anirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury
cs.AI

papers.abstract

Dieses Papier stellt unser System für Aufgabe 3 des CLEF 2025 CheckThat! Labs vor, das sich auf die Überprüfung numerischer und zeitlicher Behauptungen mithilfe von abgerufenen Belegen konzentriert. Wir untersuchen zwei komplementäre Ansätze: Zero-Shot-Prompting mit instruktionsfein abgestimmten großen Sprachmodellen (LLMs) und überwachtes Fein-Tuning unter Verwendung des parameter-effizienten LoRA-Verfahrens. Um die Qualität der Belege zu verbessern, untersuchen wir mehrere Auswahlstrategien, darunter die Eingabe des gesamten Dokuments und die Filterung der Top-k-Sätze mithilfe von BM25 und MiniLM. Unser bestes Modell, LLaMA, das mit LoRA feinabgestimmt wurde, erzielt eine starke Leistung auf dem englischen Validierungssatz. Ein deutlicher Rückgang im Testset verdeutlicht jedoch eine Herausforderung in Bezug auf die Generalisierungsfähigkeit. Diese Ergebnisse unterstreichen die Bedeutung der Granularität der Belege und der Modellanpassung für eine robuste numerische Faktenüberprüfung.
English
This paper presents our system for Task 3 of the CLEF 2025 CheckThat! Lab, which focuses on verifying numerical and temporal claims using retrieved evidence. We explore two complementary approaches: zero-shot prompting with instruction-tuned large language models (LLMs) and supervised fine-tuning using parameter-efficient LoRA. To enhance evidence quality, we investigate several selection strategies, including full-document input and top-k sentence filtering using BM25 and MiniLM. Our best-performing model LLaMA fine-tuned with LoRA achieves strong performance on the English validation set. However, a notable drop in the test set highlights a generalization challenge. These findings underscore the importance of evidence granularity and model adaptation for robust numerical fact verification.
PDF12September 16, 2025