ClaimIQ no CheckThat! 2025: Comparando Modelos de Linguagem com Prompt e Fine-Tuning para Verificação de Afirmações Numéricas
ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims
September 15, 2025
Autores: Anirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury
cs.AI
Resumo
Este artigo apresenta nosso sistema para a Tarefa 3 do CLEF 2025 CheckThat! Lab, que se concentra na verificação de afirmações numéricas e temporais utilizando evidências recuperadas. Exploramos duas abordagens complementares: prompting zero-shot com grandes modelos de linguagem (LLMs) ajustados por instrução e fine-tuning supervisionado usando LoRA, um método eficiente em parâmetros. Para melhorar a qualidade das evidências, investigamos várias estratégias de seleção, incluindo a entrada de documentos completos e a filtragem das k melhores frases usando BM25 e MiniLM. Nosso modelo de melhor desempenho, LLaMA ajustado com LoRA, alcança resultados robustos no conjunto de validação em inglês. No entanto, uma queda significativa no conjunto de teste destaca um desafio de generalização. Esses resultados ressaltam a importância da granularidade das evidências e da adaptação do modelo para uma verificação robusta de fatos numéricos.
English
This paper presents our system for Task 3 of the CLEF 2025 CheckThat! Lab,
which focuses on verifying numerical and temporal claims using retrieved
evidence. We explore two complementary approaches: zero-shot prompting with
instruction-tuned large language models (LLMs) and supervised fine-tuning using
parameter-efficient LoRA. To enhance evidence quality, we investigate several
selection strategies, including full-document input and top-k sentence
filtering using BM25 and MiniLM. Our best-performing model LLaMA fine-tuned
with LoRA achieves strong performance on the English validation set. However, a
notable drop in the test set highlights a generalization challenge. These
findings underscore the importance of evidence granularity and model adaptation
for robust numerical fact verification.