Optimisation de la décomposition pour une vérification optimale des affirmations

Résumé

Les recherches actuelles sur le paradigme Decompose-Then-Verify pour évaluer la factualité des textes longs traitent généralement la décomposition et la vérification de manière isolée, négligeant leurs interactions et les éventuels désalignements. Nous constatons que les politiques de décomposition existantes, généralement basées sur des démonstrations manuelles, ne s'alignent pas bien avec les vérificateurs en aval en termes d'atomicité -- une nouvelle métrique quantifiant la densité d'information -- ce qui conduit à des résultats de vérification sous-optimaux. Nous formulons la recherche de la politique de décomposition optimale pour une vérification optimale comme un problème d'optimisation bi-niveau. Pour approximer une solution à ce problème fortement NP-difficile, nous proposons la décomposition dynamique, un cadre d'apprentissage par renforcement qui exploite les retours du vérificateur pour apprendre une politique de décomposition dynamique des affirmations vers une atomicité privilégiée par le vérificateur. Les résultats expérimentaux montrent que la décomposition dynamique surpasse les politiques de décomposition existantes, améliorant la confiance de vérification de 0,07 et la précision de 0,12 (sur une échelle de 0 à 1) en moyenne, quel que soit le vérificateur, le jeu de données ou l'atomicité des affirmations en entrée.

English

Current research on the Decompose-Then-Verify paradigm for evaluating the factuality of long-form text typically treats decomposition and verification in isolation, overlooking their interactions and potential misalignment. We find that existing decomposition policies, typically hand-crafted demonstrations, do not align well with downstream verifiers in terms of atomicity -- a novel metric quantifying information density -- leading to suboptimal verification results. We formulate finding the optimal decomposition policy for optimal verification as a bilevel optimization problem. To approximate a solution for this strongly NP-hard problem, we propose dynamic decomposition, a reinforcement learning framework that leverages verifier feedback to learn a policy for dynamically decomposing claims to verifier-preferred atomicity. Experimental results show that dynamic decomposition outperforms existing decomposition policies, improving verification confidence by 0.07 and accuracy by 0.12 (on a 0-1 scale) on average across varying verifiers, datasets, and atomcities of input claims.