Si nous pouvons lever les présuppositions : vérification robuste des affirmations par la décomposition des questions sans présupposés
If We May De-Presuppose: Robustly Verifying Claims through Presupposition-Free Question Decomposition
August 22, 2025
papers.authors: Shubhashis Roy Dipta, Francis Ferraro
cs.AI
papers.abstract
Les travaux antérieurs ont montré que la présupposition dans les questions générées peut introduire des hypothèses non vérifiées, conduisant à des incohérences dans la vérification des affirmations. De plus, la sensibilité aux prompts reste un défi majeur pour les grands modèles de langage (LLMs), entraînant une variance de performance pouvant atteindre 3 à 6 %. Bien que des avancées récentes aient réduit cet écart, notre étude démontre que la sensibilité aux prompts reste un problème persistant. Pour y remédier, nous proposons un cadre structuré et robuste de vérification des affirmations qui raisonne à travers des questions décomposées et exemptes de présuppositions. Des expériences approfondies sur plusieurs prompts, jeux de données et LLMs révèlent que même les modèles les plus avancés restent sensibles à la variance des prompts et aux présuppositions. Notre méthode atténue systématiquement ces problèmes, permettant une amélioration allant jusqu'à 2 à 5 %.
English
Prior work has shown that presupposition in generated questions can introduce
unverified assumptions, leading to inconsistencies in claim verification.
Additionally, prompt sensitivity remains a significant challenge for large
language models (LLMs), resulting in performance variance as high as 3-6%.
While recent advancements have reduced this gap, our study demonstrates that
prompt sensitivity remains a persistent issue. To address this, we propose a
structured and robust claim verification framework that reasons through
presupposition-free, decomposed questions. Extensive experiments across
multiple prompts, datasets, and LLMs reveal that even state-of-the-art models
remain susceptible to prompt variance and presupposition. Our method
consistently mitigates these issues, achieving up to a 2-5% improvement.