ClaimIQ à CheckThat! 2025 : Comparaison des modèles de langage incités et affinés pour la vérification des affirmations numériques
ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims
September 15, 2025
papers.authors: Anirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury
cs.AI
papers.abstract
Cet article présente notre système pour la tâche 3 du laboratoire CLEF 2025 CheckThat!, qui se concentre sur la vérification des affirmations numériques et temporelles en utilisant des preuves récupérées. Nous explorons deux approches complémentaires : le prompting zero-shot avec des modèles de langage de grande taille (LLMs) ajustés par instruction, et le fine-tuning supervisé utilisant la méthode paramétriquement efficace LoRA. Pour améliorer la qualité des preuves, nous étudions plusieurs stratégies de sélection, incluant l'entrée de documents complets et le filtrage des k meilleures phrases en utilisant BM25 et MiniLM. Notre meilleur modèle, LLaMA fine-tuné avec LoRA, obtient des performances solides sur l'ensemble de validation en anglais. Cependant, une baisse notable sur l'ensemble de test met en lumière un défi de généralisation. Ces résultats soulignent l'importance de la granularité des preuves et de l'adaptation des modèles pour une vérification robuste des faits numériques.
English
This paper presents our system for Task 3 of the CLEF 2025 CheckThat! Lab,
which focuses on verifying numerical and temporal claims using retrieved
evidence. We explore two complementary approaches: zero-shot prompting with
instruction-tuned large language models (LLMs) and supervised fine-tuning using
parameter-efficient LoRA. To enhance evidence quality, we investigate several
selection strategies, including full-document input and top-k sentence
filtering using BM25 and MiniLM. Our best-performing model LLaMA fine-tuned
with LoRA achieves strong performance on the English validation set. However, a
notable drop in the test set highlights a generalization challenge. These
findings underscore the importance of evidence granularity and model adaptation
for robust numerical fact verification.