Oltre il Vero o Falso: Analisi Gerarchica Aumentata dal Recupero di Affermazioni Sfumate
Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims
June 12, 2025
Autori: Priyanka Kargupta, Runchu Tian, Jiawei Han
cs.AI
Abstract
Le affermazioni fatte da individui o entità sono spesso sfumate e non possono essere chiaramente etichettate come interamente "vere" o "false" — come accade frequentemente con le affermazioni scientifiche e politiche. Tuttavia, un'affermazione (ad esempio, "il vaccino A è migliore del vaccino B") può essere scomposta nei suoi aspetti integrali e sotto-aspetti (ad esempio, efficacia, sicurezza, distribuzione), che sono individualmente più facili da validare. Ciò consente una risposta più completa e strutturata che fornisce una prospettiva ben articolata su un determinato problema, permettendo anche al lettore di dare priorità a specifici angoli di interesse all'interno dell'affermazione (ad esempio, la sicurezza nei confronti dei bambini). Proponiamo quindi ClaimSpect, un framework basato su generazione aumentata da recupero per costruire automaticamente una gerarchia di aspetti tipicamente considerati quando si affronta un'affermazione e arricchirli con prospettive specifiche del corpus. Questa struttura partiziona gerarchicamente un corpus di input per recuperare segmenti rilevanti, che aiutano a scoprire nuovi sotto-aspetti. Inoltre, questi segmenti consentono di scoprire prospettive diverse riguardo a un aspetto dell'affermazione (ad esempio, supporto, neutralità o opposizione) e la loro rispettiva prevalenza (ad esempio, "quanti articoli biomedici ritengono che il vaccino A sia più trasportabile del vaccino B?"). Applichiamo ClaimSpect a una vasta gamma di affermazioni scientifiche e politiche del mondo reale presenti nel nostro dataset costruito, dimostrando la sua robustezza e accuratezza nel decostruire un'affermazione sfumata e nel rappresentare le prospettive all'interno di un corpus. Attraverso studi di casi reali e valutazioni umane, convalidiamo la sua efficacia rispetto a molteplici baseline.
English
Claims made by individuals or entities are oftentimes nuanced and cannot be
clearly labeled as entirely "true" or "false" -- as is frequently the case with
scientific and political claims. However, a claim (e.g., "vaccine A is better
than vaccine B") can be dissected into its integral aspects and sub-aspects
(e.g., efficacy, safety, distribution), which are individually easier to
validate. This enables a more comprehensive, structured response that provides
a well-rounded perspective on a given problem while also allowing the reader to
prioritize specific angles of interest within the claim (e.g., safety towards
children). Thus, we propose ClaimSpect, a retrieval-augmented generation-based
framework for automatically constructing a hierarchy of aspects typically
considered when addressing a claim and enriching them with corpus-specific
perspectives. This structure hierarchically partitions an input corpus to
retrieve relevant segments, which assist in discovering new sub-aspects.
Moreover, these segments enable the discovery of varying perspectives towards
an aspect of the claim (e.g., support, neutral, or oppose) and their respective
prevalence (e.g., "how many biomedical papers believe vaccine A is more
transportable than B?"). We apply ClaimSpect to a wide variety of real-world
scientific and political claims featured in our constructed dataset, showcasing
its robustness and accuracy in deconstructing a nuanced claim and representing
perspectives within a corpus. Through real-world case studies and human
evaluation, we validate its effectiveness over multiple baselines.