За пределами истины и лжи: Иерархический анализ нюансированных утверждений с использованием методов извлечения информации
Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims
June 12, 2025
Авторы: Priyanka Kargupta, Runchu Tian, Jiawei Han
cs.AI
Аннотация
Утверждения, выдвигаемые отдельными лицами или организациями, зачастую носят сложный характер и не могут быть однозначно классифицированы как полностью «истинные» или «ложные» — что часто наблюдается в научных и политических заявлениях. Однако утверждение (например, «вакцина А лучше вакцины Б») может быть разложено на его ключевые аспекты и подаспекты (например, эффективность, безопасность, распределение), которые проще проверить по отдельности. Это позволяет дать более всесторонний и структурированный ответ, предоставляя целостный взгляд на проблему, а также позволяя читателю сосредоточиться на конкретных интересующих его аспектах утверждения (например, безопасности для детей). Таким образом, мы предлагаем ClaimSpect — основанную на генерации с использованием извлечения данных структуру, которая автоматически строит иерархию аспектов, обычно рассматриваемых при анализе утверждения, и обогащает их контекстно-зависимыми перспективами. Эта структура иерархически разделяет входной корпус для извлечения релевантных фрагментов, которые помогают обнаруживать новые подаспекты. Кроме того, эти фрагменты позволяют выявить различные точки зрения на аспект утверждения (например, поддержка, нейтралитет или оппозиция) и их распространённость (например, «сколько биомедицинских статей считают, что вакцина А более транспортабельна, чем Б?»). Мы применяем ClaimSpect к широкому спектру реальных научных и политических утверждений, представленных в нашем наборе данных, демонстрируя её устойчивость и точность в деконструкции сложных утверждений и представлении перспектив внутри корпуса. С помощью реальных кейсов и экспертной оценки мы подтверждаем её эффективность по сравнению с несколькими базовыми методами.
English
Claims made by individuals or entities are oftentimes nuanced and cannot be
clearly labeled as entirely "true" or "false" -- as is frequently the case with
scientific and political claims. However, a claim (e.g., "vaccine A is better
than vaccine B") can be dissected into its integral aspects and sub-aspects
(e.g., efficacy, safety, distribution), which are individually easier to
validate. This enables a more comprehensive, structured response that provides
a well-rounded perspective on a given problem while also allowing the reader to
prioritize specific angles of interest within the claim (e.g., safety towards
children). Thus, we propose ClaimSpect, a retrieval-augmented generation-based
framework for automatically constructing a hierarchy of aspects typically
considered when addressing a claim and enriching them with corpus-specific
perspectives. This structure hierarchically partitions an input corpus to
retrieve relevant segments, which assist in discovering new sub-aspects.
Moreover, these segments enable the discovery of varying perspectives towards
an aspect of the claim (e.g., support, neutral, or oppose) and their respective
prevalence (e.g., "how many biomedical papers believe vaccine A is more
transportable than B?"). We apply ClaimSpect to a wide variety of real-world
scientific and political claims featured in our constructed dataset, showcasing
its robustness and accuracy in deconstructing a nuanced claim and representing
perspectives within a corpus. Through real-world case studies and human
evaluation, we validate its effectiveness over multiple baselines.