Más allá de verdadero o falso: Análisis jerárquico aumentado por recuperación de afirmaciones matizadas
Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims
June 12, 2025
Autores: Priyanka Kargupta, Runchu Tian, Jiawei Han
cs.AI
Resumen
Las afirmaciones realizadas por individuos o entidades suelen ser matizadas y no pueden etiquetarse claramente como completamente "verdaderas" o "falsas", como ocurre frecuentemente con las afirmaciones científicas y políticas. Sin embargo, una afirmación (por ejemplo, "la vacuna A es mejor que la vacuna B") puede desglosarse en sus aspectos integrales y subaspectos (por ejemplo, eficacia, seguridad, distribución), que son más fáciles de validar individualmente. Esto permite una respuesta más completa y estructurada que proporciona una perspectiva equilibrada sobre un problema determinado, al mismo tiempo que permite al lector priorizar ángulos específicos de interés dentro de la afirmación (por ejemplo, la seguridad hacia los niños). Por lo tanto, proponemos ClaimSpect, un marco basado en generación aumentada por recuperación para construir automáticamente una jerarquía de aspectos que se consideran típicamente al abordar una afirmación y enriquecerlos con perspectivas específicas del corpus. Esta estructura particiona jerárquicamente un corpus de entrada para recuperar segmentos relevantes, que ayudan a descubrir nuevos subaspectos. Además, estos segmentos permiten descubrir diversas perspectivas hacia un aspecto de la afirmación (por ejemplo, apoyo, neutralidad u oposición) y su prevalencia respectiva (por ejemplo, "¿cuántos artículos biomédicos creen que la vacuna A es más transportable que la B?"). Aplicamos ClaimSpect a una amplia variedad de afirmaciones científicas y políticas del mundo real presentes en nuestro conjunto de datos construido, demostrando su robustez y precisión al deconstruir una afirmación matizada y representar perspectivas dentro de un corpus. A través de estudios de casos reales y evaluación humana, validamos su efectividad frente a múltiples líneas base.
English
Claims made by individuals or entities are oftentimes nuanced and cannot be
clearly labeled as entirely "true" or "false" -- as is frequently the case with
scientific and political claims. However, a claim (e.g., "vaccine A is better
than vaccine B") can be dissected into its integral aspects and sub-aspects
(e.g., efficacy, safety, distribution), which are individually easier to
validate. This enables a more comprehensive, structured response that provides
a well-rounded perspective on a given problem while also allowing the reader to
prioritize specific angles of interest within the claim (e.g., safety towards
children). Thus, we propose ClaimSpect, a retrieval-augmented generation-based
framework for automatically constructing a hierarchy of aspects typically
considered when addressing a claim and enriching them with corpus-specific
perspectives. This structure hierarchically partitions an input corpus to
retrieve relevant segments, which assist in discovering new sub-aspects.
Moreover, these segments enable the discovery of varying perspectives towards
an aspect of the claim (e.g., support, neutral, or oppose) and their respective
prevalence (e.g., "how many biomedical papers believe vaccine A is more
transportable than B?"). We apply ClaimSpect to a wide variety of real-world
scientific and political claims featured in our constructed dataset, showcasing
its robustness and accuracy in deconstructing a nuanced claim and representing
perspectives within a corpus. Through real-world case studies and human
evaluation, we validate its effectiveness over multiple baselines.