Optimización de la Descomposición para la Verificación Óptima de Afirmaciones

Resumen

La investigación actual sobre el paradigma Descomponer-Luego-Verificar para evaluar la factualidad de textos extensos generalmente trata la descomposición y la verificación de manera aislada, pasando por alto sus interacciones y posibles desalineaciones. Encontramos que las políticas de descomposición existentes, típicamente demostraciones diseñadas manualmente, no se alinean bien con los verificadores posteriores en términos de atomicidad —una métrica novedosa que cuantifica la densidad de información—, lo que conduce a resultados de verificación subóptimos. Formulamos la búsqueda de la política de descomposición óptima para una verificación óptima como un problema de optimización bilevel. Para aproximar una solución a este problema fuertemente NP-difícil, proponemos la descomposición dinámica, un marco de aprendizaje por refuerzo que aprovecha la retroalimentación del verificador para aprender una política que descompone dinámicamente las afirmaciones a la atomicidad preferida por el verificador. Los resultados experimentales muestran que la descomposición dinámica supera a las políticas de descomposición existentes, mejorando la confianza de verificación en 0.07 y la precisión en 0.12 (en una escala de 0 a 1) en promedio, considerando diferentes verificadores, conjuntos de datos y atomicidades de las afirmaciones de entrada.

English

Current research on the Decompose-Then-Verify paradigm for evaluating the factuality of long-form text typically treats decomposition and verification in isolation, overlooking their interactions and potential misalignment. We find that existing decomposition policies, typically hand-crafted demonstrations, do not align well with downstream verifiers in terms of atomicity -- a novel metric quantifying information density -- leading to suboptimal verification results. We formulate finding the optimal decomposition policy for optimal verification as a bilevel optimization problem. To approximate a solution for this strongly NP-hard problem, we propose dynamic decomposition, a reinforcement learning framework that leverages verifier feedback to learn a policy for dynamically decomposing claims to verifier-preferred atomicity. Experimental results show that dynamic decomposition outperforms existing decomposition policies, improving verification confidence by 0.07 and accuracy by 0.12 (on a 0-1 scale) on average across varying verifiers, datasets, and atomcities of input claims.