ChatPaper.aiChatPaper

CheckThat! 2025에서의 ClaimIQ: 수치적 주장 검증을 위한 프롬프트 기반 언어 모델과 미세 조정 언어 모델 비교

ClaimIQ at CheckThat! 2025: Comparing Prompted and Fine-Tuned Language Models for Verifying Numerical Claims

September 15, 2025
저자: Anirban Saha Anik, Md Fahimul Kabir Chowdhury, Andrew Wyckoff, Sagnik Ray Choudhury
cs.AI

초록

본 논문은 CLEF 2025 CheckThat! Lab의 Task 3를 위한 우리의 시스템을 소개하며, 이 작업은 검색된 증거를 활용하여 수치적 및 시간적 주장을 검증하는 데 초점을 맞추고 있습니다. 우리는 두 가지 상호 보완적인 접근 방식을 탐구합니다: 명령어 튜닝된 대형 언어 모델(LLM)을 이용한 제로샷 프롬프팅과 파라미터 효율적인 LoRA를 사용한 지도 학습 미세 조정입니다. 증거의 질을 향상시키기 위해, 전체 문서 입력과 BM25 및 MiniLM을 사용한 상위 k개 문장 필터링을 포함한 여러 선택 전략을 조사합니다. LoRA로 미세 조정된 LLaMA 모델은 영어 검증 세트에서 강력한 성능을 보여주지만, 테스트 세트에서의 뚜렷한 성능 하락은 일반화의 어려움을 드러냅니다. 이러한 결과는 견고한 수치적 사실 검증을 위해 증거의 세분성과 모델 적응의 중요성을 강조합니다.
English
This paper presents our system for Task 3 of the CLEF 2025 CheckThat! Lab, which focuses on verifying numerical and temporal claims using retrieved evidence. We explore two complementary approaches: zero-shot prompting with instruction-tuned large language models (LLMs) and supervised fine-tuning using parameter-efficient LoRA. To enhance evidence quality, we investigate several selection strategies, including full-document input and top-k sentence filtering using BM25 and MiniLM. Our best-performing model LLaMA fine-tuned with LoRA achieves strong performance on the English validation set. However, a notable drop in the test set highlights a generalization challenge. These findings underscore the importance of evidence granularity and model adaptation for robust numerical fact verification.
PDF12September 16, 2025