ChatPaper.aiChatPaper

Si nous pouvons lever les présuppositions : vérification robuste des affirmations par la décomposition des questions sans présupposés

If We May De-Presuppose: Robustly Verifying Claims through Presupposition-Free Question Decomposition

August 22, 2025
papers.authors: Shubhashis Roy Dipta, Francis Ferraro
cs.AI

papers.abstract

Les travaux antérieurs ont montré que la présupposition dans les questions générées peut introduire des hypothèses non vérifiées, conduisant à des incohérences dans la vérification des affirmations. De plus, la sensibilité aux prompts reste un défi majeur pour les grands modèles de langage (LLMs), entraînant une variance de performance pouvant atteindre 3 à 6 %. Bien que des avancées récentes aient réduit cet écart, notre étude démontre que la sensibilité aux prompts reste un problème persistant. Pour y remédier, nous proposons un cadre structuré et robuste de vérification des affirmations qui raisonne à travers des questions décomposées et exemptes de présuppositions. Des expériences approfondies sur plusieurs prompts, jeux de données et LLMs révèlent que même les modèles les plus avancés restent sensibles à la variance des prompts et aux présuppositions. Notre méthode atténue systématiquement ces problèmes, permettant une amélioration allant jusqu'à 2 à 5 %.
English
Prior work has shown that presupposition in generated questions can introduce unverified assumptions, leading to inconsistencies in claim verification. Additionally, prompt sensitivity remains a significant challenge for large language models (LLMs), resulting in performance variance as high as 3-6%. While recent advancements have reduced this gap, our study demonstrates that prompt sensitivity remains a persistent issue. To address this, we propose a structured and robust claim verification framework that reasons through presupposition-free, decomposed questions. Extensive experiments across multiple prompts, datasets, and LLMs reveal that even state-of-the-art models remain susceptible to prompt variance and presupposition. Our method consistently mitigates these issues, achieving up to a 2-5% improvement.
PDF01August 26, 2025