Voorbij Waar of Onwaar: Retrieval-augmented Hiërarchische Analyse van Genuanceerde Beweringen

Samenvatting

Beweringen die door individuen of entiteiten worden gemaakt, zijn vaak genuanceerd en kunnen niet eenduidig als volledig "waar" of "onwaar" worden bestempeld — wat vaak het geval is bij wetenschappelijke en politieke beweringen. Een bewering (bijvoorbeeld "vaccin A is beter dan vaccin B") kan echter worden opgedeeld in zijn integrale aspecten en subaspecten (bijvoorbeeld effectiviteit, veiligheid, distributie), die individueel gemakkelijker te valideren zijn. Dit maakt een meer uitgebreid, gestructureerd antwoord mogelijk dat een goed afgerond perspectief biedt op een bepaald probleem, terwijl de lezer ook de mogelijkheid krijgt om specifieke invalshoeken binnen de bewering te prioriteren (bijvoorbeeld veiligheid voor kinderen). Daarom stellen we ClaimSpect voor, een op retrieval-augmented generation gebaseerd raamwerk voor het automatisch construeren van een hiërarchie van aspecten die typisch worden overwogen bij het behandelen van een bewering, en deze te verrijken met corpus-specifieke perspectieven. Deze structuur verdeelt een invoercorpus hiërarchisch om relevante segmenten op te halen, die helpen bij het ontdekken van nieuwe subaspecten. Bovendien maken deze segmenten het mogelijk om verschillende perspectieven ten opzichte van een aspect van de bewering te ontdekken (bijvoorbeeld ondersteuning, neutraal of tegenstand) en hun respectievelijke prevalentie (bijvoorbeeld "hoeveel biomedische artikelen geloven dat vaccin A beter vervoerbaar is dan B?"). We passen ClaimSpect toe op een breed scala aan real-world wetenschappelijke en politieke beweringen die zijn opgenomen in onze geconstrueerde dataset, waarbij we de robuustheid en nauwkeurigheid ervan demonstreren in het deconstrueren van een genuanceerde bewering en het representeren van perspectieven binnen een corpus. Door real-world casestudies en menselijke evaluatie valideren we de effectiviteit ervan ten opzichte van meerdere baselines.

English

Claims made by individuals or entities are oftentimes nuanced and cannot be clearly labeled as entirely "true" or "false" -- as is frequently the case with scientific and political claims. However, a claim (e.g., "vaccine A is better than vaccine B") can be dissected into its integral aspects and sub-aspects (e.g., efficacy, safety, distribution), which are individually easier to validate. This enables a more comprehensive, structured response that provides a well-rounded perspective on a given problem while also allowing the reader to prioritize specific angles of interest within the claim (e.g., safety towards children). Thus, we propose ClaimSpect, a retrieval-augmented generation-based framework for automatically constructing a hierarchy of aspects typically considered when addressing a claim and enriching them with corpus-specific perspectives. This structure hierarchically partitions an input corpus to retrieve relevant segments, which assist in discovering new sub-aspects. Moreover, these segments enable the discovery of varying perspectives towards an aspect of the claim (e.g., support, neutral, or oppose) and their respective prevalence (e.g., "how many biomedical papers believe vaccine A is more transportable than B?"). We apply ClaimSpect to a wide variety of real-world scientific and political claims featured in our constructed dataset, showcasing its robustness and accuracy in deconstructing a nuanced claim and representing perspectives within a corpus. Through real-world case studies and human evaluation, we validate its effectiveness over multiple baselines.

Voorbij Waar of Onwaar: Retrieval-augmented Hiërarchische Analyse van Genuanceerde Beweringen

Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims

Samenvatting

Support