Если мы можем устранить предпосылки: надежная проверка утверждений через декомпозицию вопросов, свободную от предпосылок
If We May De-Presuppose: Robustly Verifying Claims through Presupposition-Free Question Decomposition
August 22, 2025
Авторы: Shubhashis Roy Dipta, Francis Ferraro
cs.AI
Аннотация
Предыдущие исследования показали, что пресуппозиции в генерируемых вопросах могут вводить непроверенные предположения, что приводит к несоответствиям при проверке утверждений. Кроме того, чувствительность к формулировкам запросов остается серьезной проблемой для больших языковых моделей (LLM), вызывая колебания производительности в пределах 3-6%. Хотя последние достижения сократили этот разрыв, наше исследование демонстрирует, что чувствительность к формулировкам остается устойчивой проблемой. Для решения этой задачи мы предлагаем структурированный и надежный фреймворк для проверки утверждений, который основывается на декомпозированных вопросах, свободных от пресуппозиций. Многочисленные эксперименты с различными формулировками, наборами данных и LLM показывают, что даже современные модели остаются подверженными влиянию вариативности формулировок и пресуппозиций. Наш метод последовательно устраняет эти проблемы, обеспечивая улучшение до 2-5%.
English
Prior work has shown that presupposition in generated questions can introduce
unverified assumptions, leading to inconsistencies in claim verification.
Additionally, prompt sensitivity remains a significant challenge for large
language models (LLMs), resulting in performance variance as high as 3-6%.
While recent advancements have reduced this gap, our study demonstrates that
prompt sensitivity remains a persistent issue. To address this, we propose a
structured and robust claim verification framework that reasons through
presupposition-free, decomposed questions. Extensive experiments across
multiple prompts, datasets, and LLMs reveal that even state-of-the-art models
remain susceptible to prompt variance and presupposition. Our method
consistently mitigates these issues, achieving up to a 2-5% improvement.