ClaimIQ en CheckThat! 2025: Comparación de modelos de lenguaje ajustados y basados en prompts para la verificación de afirmaciones numéricas
ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims
September 15, 2025
Autores: Anirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury
cs.AI
Resumen
Este artículo presenta nuestro sistema para la Tarea 3 del CLEF 2025 CheckThat! Lab, que se centra en la verificación de afirmaciones numéricas y temporales utilizando evidencia recuperada. Exploramos dos enfoques complementarios: el prompting zero-shot con modelos de lenguaje grandes (LLMs) ajustados por instrucciones y el ajuste fino supervisado utilizando LoRA, un método eficiente en parámetros. Para mejorar la calidad de la evidencia, investigamos varias estrategias de selección, incluyendo la entrada de documentos completos y el filtrado de las k mejores oraciones utilizando BM25 y MiniLM. Nuestro modelo de mejor rendimiento, LLaMA ajustado con LoRA, logra un desempeño sólido en el conjunto de validación en inglés. Sin embargo, una caída notable en el conjunto de prueba resalta un desafío de generalización. Estos hallazgos subrayan la importancia de la granularidad de la evidencia y la adaptación del modelo para una verificación robusta de hechos numéricos.
English
This paper presents our system for Task 3 of the CLEF 2025 CheckThat! Lab,
which focuses on verifying numerical and temporal claims using retrieved
evidence. We explore two complementary approaches: zero-shot prompting with
instruction-tuned large language models (LLMs) and supervised fine-tuning using
parameter-efficient LoRA. To enhance evidence quality, we investigate several
selection strategies, including full-document input and top-k sentence
filtering using BM25 and MiniLM. Our best-performing model LLaMA fine-tuned
with LoRA achieves strong performance on the English validation set. However, a
notable drop in the test set highlights a generalization challenge. These
findings underscore the importance of evidence granularity and model adaptation
for robust numerical fact verification.