Más allá de verdadero o falso: Análisis jerárquico aumentado por recuperación de afirmaciones matizadas

Resumen

Las afirmaciones realizadas por individuos o entidades suelen ser matizadas y no pueden etiquetarse claramente como completamente "verdaderas" o "falsas", como ocurre frecuentemente con las afirmaciones científicas y políticas. Sin embargo, una afirmación (por ejemplo, "la vacuna A es mejor que la vacuna B") puede desglosarse en sus aspectos integrales y subaspectos (por ejemplo, eficacia, seguridad, distribución), que son más fáciles de validar individualmente. Esto permite una respuesta más completa y estructurada que proporciona una perspectiva equilibrada sobre un problema determinado, al mismo tiempo que permite al lector priorizar ángulos específicos de interés dentro de la afirmación (por ejemplo, la seguridad hacia los niños). Por lo tanto, proponemos ClaimSpect, un marco basado en generación aumentada por recuperación para construir automáticamente una jerarquía de aspectos que se consideran típicamente al abordar una afirmación y enriquecerlos con perspectivas específicas del corpus. Esta estructura particiona jerárquicamente un corpus de entrada para recuperar segmentos relevantes, que ayudan a descubrir nuevos subaspectos. Además, estos segmentos permiten descubrir diversas perspectivas hacia un aspecto de la afirmación (por ejemplo, apoyo, neutralidad u oposición) y su prevalencia respectiva (por ejemplo, "¿cuántos artículos biomédicos creen que la vacuna A es más transportable que la B?"). Aplicamos ClaimSpect a una amplia variedad de afirmaciones científicas y políticas del mundo real presentes en nuestro conjunto de datos construido, demostrando su robustez y precisión al deconstruir una afirmación matizada y representar perspectivas dentro de un corpus. A través de estudios de casos reales y evaluación humana, validamos su efectividad frente a múltiples líneas base.

English

Claims made by individuals or entities are oftentimes nuanced and cannot be clearly labeled as entirely "true" or "false" -- as is frequently the case with scientific and political claims. However, a claim (e.g., "vaccine A is better than vaccine B") can be dissected into its integral aspects and sub-aspects (e.g., efficacy, safety, distribution), which are individually easier to validate. This enables a more comprehensive, structured response that provides a well-rounded perspective on a given problem while also allowing the reader to prioritize specific angles of interest within the claim (e.g., safety towards children). Thus, we propose ClaimSpect, a retrieval-augmented generation-based framework for automatically constructing a hierarchy of aspects typically considered when addressing a claim and enriching them with corpus-specific perspectives. This structure hierarchically partitions an input corpus to retrieve relevant segments, which assist in discovering new sub-aspects. Moreover, these segments enable the discovery of varying perspectives towards an aspect of the claim (e.g., support, neutral, or oppose) and their respective prevalence (e.g., "how many biomedical papers believe vaccine A is more transportable than B?"). We apply ClaimSpect to a wide variety of real-world scientific and political claims featured in our constructed dataset, showcasing its robustness and accuracy in deconstructing a nuanced claim and representing perspectives within a corpus. Through real-world case studies and human evaluation, we validate its effectiveness over multiple baselines.

Más allá de verdadero o falso: Análisis jerárquico aumentado por recuperación de afirmaciones matizadas

Beyond True or False: Retrieval-Augmented Hierarchical Analysis of Nuanced Claims

Resumen

Support