Als We Mogen Ontvooronderstellen: Claims Robuust Verifiëren via Vooronderstellingsvrije Vraagdecompositie

Samenvatting

Eerder onderzoek heeft aangetoond dat vooronderstellingen in gegenereerde vragen ongeverifieerde aannames kunnen introduceren, wat leidt tot inconsistenties in claimverificatie. Daarnaast blijft promptgevoeligheid een belangrijke uitdaging voor grote taalmmodellen (LLMs), wat resulteert in prestatieverschillen van wel 3-6%. Hoewel recente vooruitgang deze kloof heeft verkleind, toont onze studie aan dat promptgevoeligheid een hardnekkig probleem blijft. Om dit aan te pakken, stellen we een gestructureerd en robuust claimverificatiekader voor dat redeneert via vooronderstellingsvrije, gedecentraliseerde vragen. Uitgebreide experimenten met meerdere prompts, datasets en LLMs laten zien dat zelfs state-of-the-art modellen vatbaar blijven voor promptvariatie en vooronderstellingen. Onze methode vermindert deze problemen consistent en behaalt een verbetering van tot wel 2-5%.

English

Prior work has shown that presupposition in generated questions can introduce unverified assumptions, leading to inconsistencies in claim verification. Additionally, prompt sensitivity remains a significant challenge for large language models (LLMs), resulting in performance variance as high as 3-6%. While recent advancements have reduced this gap, our study demonstrates that prompt sensitivity remains a persistent issue. To address this, we propose a structured and robust claim verification framework that reasons through presupposition-free, decomposed questions. Extensive experiments across multiple prompts, datasets, and LLMs reveal that even state-of-the-art models remain susceptible to prompt variance and presupposition. Our method consistently mitigates these issues, achieving up to a 2-5% improvement.

Als We Mogen Ontvooronderstellen: Claims Robuust Verifiëren via Vooronderstellingsvrije Vraagdecompositie

If We May De-Presuppose: Robustly Verifying Claims through Presupposition-Free Question Decomposition

Samenvatting

Support