Voorbij Waar of Onwaar: Retrieval-augmented Hiërarchische Analyse van Genuanceerde Beweringen
Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims
June 12, 2025
Auteurs: Priyanka Kargupta, Runchu Tian, Jiawei Han
cs.AI
Samenvatting
Beweringen die door individuen of entiteiten worden gemaakt, zijn vaak genuanceerd en kunnen niet eenduidig als volledig "waar" of "onwaar" worden bestempeld — wat vaak het geval is bij wetenschappelijke en politieke beweringen. Een bewering (bijvoorbeeld "vaccin A is beter dan vaccin B") kan echter worden opgedeeld in zijn integrale aspecten en subaspecten (bijvoorbeeld effectiviteit, veiligheid, distributie), die individueel gemakkelijker te valideren zijn. Dit maakt een meer uitgebreid, gestructureerd antwoord mogelijk dat een goed afgerond perspectief biedt op een bepaald probleem, terwijl de lezer ook de mogelijkheid krijgt om specifieke invalshoeken binnen de bewering te prioriteren (bijvoorbeeld veiligheid voor kinderen). Daarom stellen we ClaimSpect voor, een op retrieval-augmented generation gebaseerd raamwerk voor het automatisch construeren van een hiërarchie van aspecten die typisch worden overwogen bij het behandelen van een bewering, en deze te verrijken met corpus-specifieke perspectieven. Deze structuur verdeelt een invoercorpus hiërarchisch om relevante segmenten op te halen, die helpen bij het ontdekken van nieuwe subaspecten. Bovendien maken deze segmenten het mogelijk om verschillende perspectieven ten opzichte van een aspect van de bewering te ontdekken (bijvoorbeeld ondersteuning, neutraal of tegenstand) en hun respectievelijke prevalentie (bijvoorbeeld "hoeveel biomedische artikelen geloven dat vaccin A beter vervoerbaar is dan B?"). We passen ClaimSpect toe op een breed scala aan real-world wetenschappelijke en politieke beweringen die zijn opgenomen in onze geconstrueerde dataset, waarbij we de robuustheid en nauwkeurigheid ervan demonstreren in het deconstrueren van een genuanceerde bewering en het representeren van perspectieven binnen een corpus. Door real-world casestudies en menselijke evaluatie valideren we de effectiviteit ervan ten opzichte van meerdere baselines.
English
Claims made by individuals or entities are oftentimes nuanced and cannot be
clearly labeled as entirely "true" or "false" -- as is frequently the case with
scientific and political claims. However, a claim (e.g., "vaccine A is better
than vaccine B") can be dissected into its integral aspects and sub-aspects
(e.g., efficacy, safety, distribution), which are individually easier to
validate. This enables a more comprehensive, structured response that provides
a well-rounded perspective on a given problem while also allowing the reader to
prioritize specific angles of interest within the claim (e.g., safety towards
children). Thus, we propose ClaimSpect, a retrieval-augmented generation-based
framework for automatically constructing a hierarchy of aspects typically
considered when addressing a claim and enriching them with corpus-specific
perspectives. This structure hierarchically partitions an input corpus to
retrieve relevant segments, which assist in discovering new sub-aspects.
Moreover, these segments enable the discovery of varying perspectives towards
an aspect of the claim (e.g., support, neutral, or oppose) and their respective
prevalence (e.g., "how many biomedical papers believe vaccine A is more
transportable than B?"). We apply ClaimSpect to a wide variety of real-world
scientific and political claims featured in our constructed dataset, showcasing
its robustness and accuracy in deconstructing a nuanced claim and representing
perspectives within a corpus. Through real-world case studies and human
evaluation, we validate its effectiveness over multiple baselines.