最適な主張検証のための分解最適化
Optimizing Decomposition for Optimal Claim Verification
March 19, 2025
著者: Yining Lu, Noah Ziems, Hy Dang, Meng Jiang
cs.AI
要旨
長文テキストの事実性を評価するためのDecompose-Then-Verifyパラダイムに関する現在の研究では、分解と検証を孤立して扱うことが一般的であり、それらの相互作用や潜在的な不整合を見落としています。既存の分解ポリシー、通常は手作業で作成されたデモンストレーションは、情報密度を定量化する新しい指標である原子性の観点で、下流の検証器と十分に整合しておらず、最適ではない検証結果を招いていることがわかりました。最適な検証のための最適な分解ポリシーを見つけることを、二段階最適化問題として定式化します。この強NP困難問題の近似解を得るために、検証器のフィードバックを活用して、検証器が好む原子性に基づいてクレームを動的に分解するポリシーを学習する強化学習フレームワークである動的分解を提案します。実験結果は、動的分解が既存の分解ポリシーを上回り、様々な検証器、データセット、入力クレームの原子性において、検証の信頼度を平均0.07、精度を0.12(0-1スケール)向上させることを示しています。
English
Current research on the Decompose-Then-Verify paradigm for
evaluating the factuality of long-form text typically treats decomposition and
verification in isolation, overlooking their interactions and potential
misalignment. We find that existing decomposition policies, typically
hand-crafted demonstrations, do not align well with downstream verifiers in
terms of atomicity -- a novel metric quantifying information density -- leading
to suboptimal verification results. We formulate finding the optimal
decomposition policy for optimal verification as a bilevel optimization
problem. To approximate a solution for this strongly NP-hard problem, we
propose dynamic decomposition, a reinforcement learning framework that
leverages verifier feedback to learn a policy for dynamically decomposing
claims to verifier-preferred atomicity. Experimental results show that dynamic
decomposition outperforms existing decomposition policies, improving
verification confidence by 0.07 and accuracy by 0.12 (on a 0-1 scale) on
average across varying verifiers, datasets, and atomcities of input claims.Summary
AI-Generated Summary