CoverBench: 複雑な主張検証のための挑戦的なベンチマーク
CoverBench: A Challenging Benchmark for Complex Claim Verification
August 6, 2024
著者: Alon Jacovi, Moran Ambar, Eyal Ben-David, Uri Shaham, Amir Feder, Mor Geva, Dror Marcus, Avi Caciularu
cs.AI
要旨
言語モデルの出力の正しさを検証する研究が増えつつある。同時に、言語モデルは推論を必要とする複雑なクエリに対処するために利用されている。本論文では、複雑な推論設定における言語モデルの出力を検証することに焦点を当てた挑戦的なベンチマーク「CoverBench」を紹介する。この目的に使用できるデータセットは、特定のユースケース(例:財務表)を対象とした他の複雑な推論タスク(例:QA)のために設計されることが多く、そのようなベンチマークを収集するためには、変換、ネガティブサンプリング、および難しい例の選択が必要となる。CoverBenchは、さまざまなドメイン、推論の種類、比較的長い入力、および利用可能な場合の表の複数表現や一貫したスキーマなどの標準化を提供し、複雑な主張の検証に対する多様な評価を可能にする。データの品質を確保するため、手動でラベルノイズの低いレベルを確認している。最後に、CoverBenchが挑戦的であり、非常に大きな改善余地があることを示すために、さまざまな競争力のあるベースライン結果を報告する。データはhttps://huggingface.co/datasets/google/coverbenchで公開されている。
English
There is a growing line of research on verifying the correctness of language
models' outputs. At the same time, LMs are being used to tackle complex queries
that require reasoning. We introduce CoverBench, a challenging benchmark
focused on verifying LM outputs in complex reasoning settings. Datasets that
can be used for this purpose are often designed for other complex reasoning
tasks (e.g., QA) targeting specific use-cases (e.g., financial tables),
requiring transformations, negative sampling and selection of hard examples to
collect such a benchmark. CoverBench provides a diversified evaluation for
complex claim verification in a variety of domains, types of reasoning,
relatively long inputs, and a variety of standardizations, such as multiple
representations for tables where available, and a consistent schema. We
manually vet the data for quality to ensure low levels of label noise. Finally,
we report a variety of competitive baseline results to show CoverBench is
challenging and has very significant headroom. The data is available at
https://huggingface.co/datasets/google/coverbench .Summary
AI-Generated Summary