Au-delà du vrai ou faux : analyse hiérarchique assistée par la récupération des affirmations nuancées
Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims
June 12, 2025
Auteurs: Priyanka Kargupta, Runchu Tian, Jiawei Han
cs.AI
Résumé
Les affirmations émises par des individus ou des entités sont souvent nuancées et ne peuvent pas être clairement étiquetées comme entièrement « vraies » ou « fausses » — comme c'est fréquemment le cas pour les affirmations scientifiques et politiques. Cependant, une affirmation (par exemple, « le vaccin A est meilleur que le vaccin B ») peut être décomposée en ses aspects et sous-aspects intégrales (par exemple, efficacité, sécurité, distribution), qui sont individuellement plus faciles à valider. Cela permet une réponse plus complète et structurée, offrant une perspective équilibrée sur un problème donné tout en permettant au lecteur de prioriser des angles spécifiques d'intérêt au sein de l'affirmation (par exemple, la sécurité pour les enfants). Ainsi, nous proposons ClaimSpect, un cadre basé sur la génération augmentée par la récupération, permettant de construire automatiquement une hiérarchie d'aspects généralement considérés lors de l'examen d'une affirmation et de les enrichir avec des perspectives spécifiques au corpus. Cette structure partitionne hiérarchiquement un corpus d'entrée pour récupérer des segments pertinents, qui aident à découvrir de nouveaux sous-aspects. De plus, ces segments permettent de découvrir des perspectives variées concernant un aspect de l'affirmation (par exemple, soutien, neutre ou opposition) et leur prévalence respective (par exemple, « combien d'articles biomédicaux pensent que le vaccin A est plus transportable que le B ? »). Nous appliquons ClaimSpect à une grande variété d'affirmations scientifiques et politiques du monde réel présentées dans notre ensemble de données construit, démontrant sa robustesse et sa précision dans la déconstruction d'une affirmation nuancée et la représentation des perspectives au sein d'un corpus. À travers des études de cas réels et une évaluation humaine, nous validons son efficacité par rapport à plusieurs références.
English
Claims made by individuals or entities are oftentimes nuanced and cannot be
clearly labeled as entirely "true" or "false" -- as is frequently the case with
scientific and political claims. However, a claim (e.g., "vaccine A is better
than vaccine B") can be dissected into its integral aspects and sub-aspects
(e.g., efficacy, safety, distribution), which are individually easier to
validate. This enables a more comprehensive, structured response that provides
a well-rounded perspective on a given problem while also allowing the reader to
prioritize specific angles of interest within the claim (e.g., safety towards
children). Thus, we propose ClaimSpect, a retrieval-augmented generation-based
framework for automatically constructing a hierarchy of aspects typically
considered when addressing a claim and enriching them with corpus-specific
perspectives. This structure hierarchically partitions an input corpus to
retrieve relevant segments, which assist in discovering new sub-aspects.
Moreover, these segments enable the discovery of varying perspectives towards
an aspect of the claim (e.g., support, neutral, or oppose) and their respective
prevalence (e.g., "how many biomedical papers believe vaccine A is more
transportable than B?"). We apply ClaimSpect to a wide variety of real-world
scientific and political claims featured in our constructed dataset, showcasing
its robustness and accuracy in deconstructing a nuanced claim and representing
perspectives within a corpus. Through real-world case studies and human
evaluation, we validate its effectiveness over multiple baselines.