ChatPaper.aiChatPaper

Se Possiamo Eliminare le Presupposizioni: Verifica Robusta delle Affermazioni attraverso la Scomposizione delle Domande senza Presupposti

If We May De-Presuppose: Robustly Verifying Claims through Presupposition-Free Question Decomposition

August 22, 2025
Autori: Shubhashis Roy Dipta, Francis Ferraro
cs.AI

Abstract

La ricerca precedente ha dimostrato che la presupposizione nelle domande generate può introdurre assunzioni non verificate, portando a incoerenze nella verifica delle affermazioni. Inoltre, la sensibilità ai prompt rimane una sfida significativa per i grandi modelli linguistici (LLM), con una variazione delle prestazioni che può raggiungere il 3-6%. Sebbene i recenti progressi abbiano ridotto questo divario, il nostro studio dimostra che la sensibilità ai prompt rimane un problema persistente. Per affrontare questa questione, proponiamo un framework strutturato e robusto per la verifica delle affermazioni, che ragiona attraverso domande decomposte e prive di presupposizioni. Esperimenti estesi su più prompt, dataset e LLM rivelano che anche i modelli più avanzati rimangono suscettibili alla variazione dei prompt e alla presupposizione. Il nostro metodo mitiga in modo consistente questi problemi, ottenendo un miglioramento fino al 2-5%.
English
Prior work has shown that presupposition in generated questions can introduce unverified assumptions, leading to inconsistencies in claim verification. Additionally, prompt sensitivity remains a significant challenge for large language models (LLMs), resulting in performance variance as high as 3-6%. While recent advancements have reduced this gap, our study demonstrates that prompt sensitivity remains a persistent issue. To address this, we propose a structured and robust claim verification framework that reasons through presupposition-free, decomposed questions. Extensive experiments across multiple prompts, datasets, and LLMs reveal that even state-of-the-art models remain susceptible to prompt variance and presupposition. Our method consistently mitigates these issues, achieving up to a 2-5% improvement.
PDF12August 26, 2025