ChatPaper.aiChatPaper

ClaimIQ à CheckThat! 2025 : Comparaison des modèles de langage incités et affinés pour la vérification des affirmations numériques

ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims

September 15, 2025
papers.authors: Anirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury
cs.AI

papers.abstract

Cet article présente notre système pour la tâche 3 du laboratoire CLEF 2025 CheckThat!, qui se concentre sur la vérification des affirmations numériques et temporelles en utilisant des preuves récupérées. Nous explorons deux approches complémentaires : le prompting zero-shot avec des modèles de langage de grande taille (LLMs) ajustés par instruction, et le fine-tuning supervisé utilisant la méthode paramétriquement efficace LoRA. Pour améliorer la qualité des preuves, nous étudions plusieurs stratégies de sélection, incluant l'entrée de documents complets et le filtrage des k meilleures phrases en utilisant BM25 et MiniLM. Notre meilleur modèle, LLaMA fine-tuné avec LoRA, obtient des performances solides sur l'ensemble de validation en anglais. Cependant, une baisse notable sur l'ensemble de test met en lumière un défi de généralisation. Ces résultats soulignent l'importance de la granularité des preuves et de l'adaptation des modèles pour une vérification robuste des faits numériques.
English
This paper presents our system for Task 3 of the CLEF 2025 CheckThat! Lab, which focuses on verifying numerical and temporal claims using retrieved evidence. We explore two complementary approaches: zero-shot prompting with instruction-tuned large language models (LLMs) and supervised fine-tuning using parameter-efficient LoRA. To enhance evidence quality, we investigate several selection strategies, including full-document input and top-k sentence filtering using BM25 and MiniLM. Our best-performing model LLaMA fine-tuned with LoRA achieves strong performance on the English validation set. However, a notable drop in the test set highlights a generalization challenge. These findings underscore the importance of evidence granularity and model adaptation for robust numerical fact verification.
PDF12September 16, 2025