ClaimIQ no CheckThat! 2025: Comparando Modelos de Linguagem com Prompt e Fine-Tuning para Verificação de Afirmações Numéricas

Resumo

Este artigo apresenta nosso sistema para a Tarefa 3 do CLEF 2025 CheckThat! Lab, que se concentra na verificação de afirmações numéricas e temporais utilizando evidências recuperadas. Exploramos duas abordagens complementares: prompting zero-shot com grandes modelos de linguagem (LLMs) ajustados por instrução e fine-tuning supervisionado usando LoRA, um método eficiente em parâmetros. Para melhorar a qualidade das evidências, investigamos várias estratégias de seleção, incluindo a entrada de documentos completos e a filtragem das k melhores frases usando BM25 e MiniLM. Nosso modelo de melhor desempenho, LLaMA ajustado com LoRA, alcança resultados robustos no conjunto de validação em inglês. No entanto, uma queda significativa no conjunto de teste destaca um desafio de generalização. Esses resultados ressaltam a importância da granularidade das evidências e da adaptação do modelo para uma verificação robusta de fatos numéricos.

English

This paper presents our system for Task 3 of the CLEF 2025 CheckThat! Lab, which focuses on verifying numerical and temporal claims using retrieved evidence. We explore two complementary approaches: zero-shot prompting with instruction-tuned large language models (LLMs) and supervised fine-tuning using parameter-efficient LoRA. To enhance evidence quality, we investigate several selection strategies, including full-document input and top-k sentence filtering using BM25 and MiniLM. Our best-performing model LLaMA fine-tuned with LoRA achieves strong performance on the English validation set. However, a notable drop in the test set highlights a generalization challenge. These findings underscore the importance of evidence granularity and model adaptation for robust numerical fact verification.

ClaimIQ no CheckThat! 2025: Comparando Modelos de Linguagem com Prompt e Fine-Tuning para Verificação de Afirmações Numéricas

ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims

Resumo

Support