Ottimizzazione della Decomposizione per la Verifica Ottimale delle Affermazioni

Abstract

La ricerca attuale sul paradigma Decompose-Then-Verify per valutare la fattualità di testi di lunga forma tratta tipicamente la decomposizione e la verifica in modo isolato, trascurando le loro interazioni e il potenziale disallineamento. Rileviamo che le politiche di decomposizione esistenti, generalmente dimostrazioni create manualmente, non si allineano bene con i verificatori a valle in termini di atomicità -- una nuova metrica che quantifica la densità informativa -- portando a risultati di verifica subottimali. Formuliamo la ricerca della politica di decomposizione ottimale per una verifica ottimale come un problema di ottimizzazione bilevel. Per approssimare una soluzione a questo problema fortemente NP-difficile, proponiamo la decomposizione dinamica, un framework di apprendimento per rinforzo che sfrutta il feedback del verificatore per apprendere una politica per decomporre dinamicamente le affermazioni in atomicità preferite dal verificatore. I risultati sperimentali mostrano che la decomposizione dinamica supera le politiche di decomposizione esistenti, migliorando la confidenza di verifica di 0.07 e l'accuratezza di 0.12 (su una scala 0-1) in media tra vari verificatori, dataset e atomicità delle affermazioni di input.

English

Current research on the Decompose-Then-Verify paradigm for evaluating the factuality of long-form text typically treats decomposition and verification in isolation, overlooking their interactions and potential misalignment. We find that existing decomposition policies, typically hand-crafted demonstrations, do not align well with downstream verifiers in terms of atomicity -- a novel metric quantifying information density -- leading to suboptimal verification results. We formulate finding the optimal decomposition policy for optimal verification as a bilevel optimization problem. To approximate a solution for this strongly NP-hard problem, we propose dynamic decomposition, a reinforcement learning framework that leverages verifier feedback to learn a policy for dynamically decomposing claims to verifier-preferred atomicity. Experimental results show that dynamic decomposition outperforms existing decomposition policies, improving verification confidence by 0.07 and accuracy by 0.12 (on a 0-1 scale) on average across varying verifiers, datasets, and atomcities of input claims.

Ottimizzazione della Decomposizione per la Verifica Ottimale delle Affermazioni

Optimizing Decomposition for Optimal Claim Verification

Abstract

Support