ChatPaper.aiChatPaper

Se Podemos Despresupor: Verificando Afirmações de Forma Robusta por Meio da Decomposição de Perguntas Livres de Pressupostos

If We May De-Presuppose: Robustly Verifying Claims through Presupposition-Free Question Decomposition

August 22, 2025
Autores: Shubhashis Roy Dipta, Francis Ferraro
cs.AI

Resumo

Trabalhos anteriores demonstraram que a pressuposição em perguntas geradas pode introduzir suposições não verificadas, levando a inconsistências na verificação de afirmações. Além disso, a sensibilidade a prompts continua sendo um desafio significativo para grandes modelos de linguagem (LLMs), resultando em uma variação de desempenho de até 3-6%. Embora avanços recentes tenham reduzido essa lacuna, nosso estudo mostra que a sensibilidade a prompts permanece um problema persistente. Para abordar isso, propomos uma estrutura estruturada e robusta de verificação de afirmações que raciocina por meio de perguntas decompostas e livres de pressuposição. Experimentos extensos em múltiplos prompts, conjuntos de dados e LLMs revelam que até mesmo os modelos mais avançados permanecem suscetíveis à variação de prompts e à pressuposição. Nosso método mitiga consistentemente esses problemas, alcançando uma melhoria de até 2-5%.
English
Prior work has shown that presupposition in generated questions can introduce unverified assumptions, leading to inconsistencies in claim verification. Additionally, prompt sensitivity remains a significant challenge for large language models (LLMs), resulting in performance variance as high as 3-6%. While recent advancements have reduced this gap, our study demonstrates that prompt sensitivity remains a persistent issue. To address this, we propose a structured and robust claim verification framework that reasons through presupposition-free, decomposed questions. Extensive experiments across multiple prompts, datasets, and LLMs reveal that even state-of-the-art models remain susceptible to prompt variance and presupposition. Our method consistently mitigates these issues, achieving up to a 2-5% improvement.
PDF12August 26, 2025