ChatPaper.aiChatPaper

CoverBench: Een Uitdagende Benchmark voor Complexe Claimverificatie

CoverBench: A Challenging Benchmark for Complex Claim Verification

August 6, 2024
Auteurs: Alon Jacovi, Moran Ambar, Eyal Ben-David, Uri Shaham, Amir Feder, Mor Geva, Dror Marcus, Avi Caciularu
cs.AI

Samenvatting

Er is een groeiende onderzoekslijn gericht op het verifiëren van de correctheid van de uitvoer van taalmodel(len). Tegelijkertijd worden taalmodel(len) ingezet om complexe vragen aan te pakken die redenering vereisen. Wij introduceren CoverBench, een uitdagende benchmark die zich richt op het verifiëren van taalmodeluitvoer in complexe redeneersettings. Datasets die hiervoor gebruikt kunnen worden, zijn vaak ontworpen voor andere complexe redeneertaken (bijv. vraag-antwoord) die gericht zijn op specifieke use-cases (bijv. financiële tabellen), waardoor transformaties, negatieve sampling en selectie van moeilijke voorbeelden nodig zijn om zo'n benchmark te verzamelen. CoverBench biedt een gediversifieerde evaluatie voor complexe claimverificatie in verschillende domeinen, soorten redenering, relatief lange invoer, en een verscheidenheid aan standaardisaties, zoals meerdere representaties voor tabellen waar beschikbaar, en een consistent schema. Wij controleren de data handmatig op kwaliteit om een laag niveau van labelruis te waarborgen. Tot slot rapporteren we een verscheidenheid aan competitieve basislijnresultaten om aan te tonen dat CoverBench uitdagend is en aanzienlijke ruimte voor verbetering biedt. De data is beschikbaar op https://huggingface.co/datasets/google/coverbench.
English
There is a growing line of research on verifying the correctness of language models' outputs. At the same time, LMs are being used to tackle complex queries that require reasoning. We introduce CoverBench, a challenging benchmark focused on verifying LM outputs in complex reasoning settings. Datasets that can be used for this purpose are often designed for other complex reasoning tasks (e.g., QA) targeting specific use-cases (e.g., financial tables), requiring transformations, negative sampling and selection of hard examples to collect such a benchmark. CoverBench provides a diversified evaluation for complex claim verification in a variety of domains, types of reasoning, relatively long inputs, and a variety of standardizations, such as multiple representations for tables where available, and a consistent schema. We manually vet the data for quality to ensure low levels of label noise. Finally, we report a variety of competitive baseline results to show CoverBench is challenging and has very significant headroom. The data is available at https://huggingface.co/datasets/google/coverbench .
PDF152January 4, 2026