ChatPaper.aiChatPaper

Wenn wir Vorannahmen auflösen können: Robuste Überprüfung von Behauptungen durch voraussetzungsfreie Fragezerlegung

If We May De-Presuppose: Robustly Verifying Claims through Presupposition-Free Question Decomposition

August 22, 2025
papers.authors: Shubhashis Roy Dipta, Francis Ferraro
cs.AI

papers.abstract

Frühere Arbeiten haben gezeigt, dass Präsuppositionen in generierten Fragen ungeprüfte Annahmen einführen können, was zu Inkonsistenzen bei der Behauptungsüberprüfung führt. Darüber hinaus bleibt die Prompt-Sensitivität eine erhebliche Herausforderung für große Sprachmodelle (LLMs), was zu Leistungsschwankungen von bis zu 3-6 % führt. Obwohl jüngste Fortschritte diese Lücke verringert haben, zeigt unsere Studie, dass die Prompt-Sensitivität ein anhaltendes Problem bleibt. Um dies zu adressieren, schlagen wir ein strukturiertes und robustes Behauptungsüberprüfungsframework vor, das durch präsuppositionsfreie, zerlegte Fragen argumentiert. Umfangreiche Experimente mit verschiedenen Prompts, Datensätzen und LLMs zeigen, dass selbst state-of-the-art Modelle anfällig für Prompt-Varianz und Präsuppositionen bleiben. Unsere Methode mildert diese Probleme konsequent und erzielt eine Verbesserung von bis zu 2-5 %.
English
Prior work has shown that presupposition in generated questions can introduce unverified assumptions, leading to inconsistencies in claim verification. Additionally, prompt sensitivity remains a significant challenge for large language models (LLMs), resulting in performance variance as high as 3-6%. While recent advancements have reduced this gap, our study demonstrates that prompt sensitivity remains a persistent issue. To address this, we propose a structured and robust claim verification framework that reasons through presupposition-free, decomposed questions. Extensive experiments across multiple prompts, datasets, and LLMs reveal that even state-of-the-art models remain susceptible to prompt variance and presupposition. Our method consistently mitigates these issues, achieving up to a 2-5% improvement.
PDF01August 26, 2025