Precisie is geen getrouwheid: dekkingsbewuste evaluatie van gefundeerde generatie met een volledig orakel

Samenvatting

Referentievrije getrouwheidsmetrieken verifiëren elke atomaire bewering die een model doet tegen de grondwaarheid en worden steeds vaker gebruikt om gegronde generatie te evalueren. We laten zien dat ze een blinde vlek delen: ze meten alleen precisie – worden de gestelde beweringen ondersteund? – en belonen daarom onthouding, aangezien een model bijna perfecte getrouwheid kan scoren door vrijwel niets te zeggen. We maken dit meetbaar met behulp van Formule 1-telemetrie, een domein waar strategische grondwaarheid deterministisch en, cruciaal, volledig wordt afgeleid: voor elke beslissing kennen we de volledige set feiten die ertoe deden. Deze volledigheid – afwezig in open-domein getrouwheidsbenchmarks – stelt ons in staat om recall (dekking van de relevante feiten) exact te meten, naast precisie. Op een meertalige (EN/ES/PT) benchmark van 7.253 beslissingsgevallen over 150 races beslaat het meest precieze frontiermodel minder dan de helft van de relevante feiten en staat het als laatste op F1, dus het vereisen van dekking herordent de systemen; hetzelfde effect treedt op in een tweede domein met volledig orakel (NOAA-weersvoorspellingen). Een prompt-ablatie toont aan dat de lage dekking geen onder-prompt-artefact is: expliciet vragen om grondigheid verkleint de kloof niet. We koppelen getrouwheid aan dekking in één score, valideren de metriek (gecontroleerde perturbatie; overeenstemming tussen een modelvrije regex-extractor en een cross-family LLM-extractor, systeemniveau Spearman 1.0) en geven een verifiërer-gestuurde generatiemethode die precisie en recall verbetert zonder referenties. We publiceren de benchmark, gestructureerde annotaties, metriek, basislijnen en een interactieve demo.

English

Reference-free faithfulness metrics verify each atomic claim a model makes against ground truth, and are increasingly used to evaluate grounded generation. We show they share a blind spot: they measure only precision -- are the stated claims supported? -- and therefore reward abstention, since a model can score near-perfect faithfulness by saying almost nothing. We make this measurable using Formula 1 telemetry, a domain where strategic ground truth is derived deterministically and, crucially, completely: for each decision we know the full set of facts that mattered. This completeness -- absent in open-domain faithfulness benchmarks -- lets us measure recall (coverage of the relevant facts) exactly, alongside precision. On a multilingual (EN/ES/PT) benchmark of 7,253 decision instances spanning 150 races, the most precise frontier model covers under half of the relevant facts and ranks last by F1, so requiring coverage reorders the systems; the same effect reappears in a second complete-oracle domain (NOAA weather forecasts). A prompt ablation shows the low coverage is not an under-prompting artifact: explicitly asking models to be thorough does not close the gap. We pair faithfulness with coverage into a single score, validate the metric (controlled perturbation; agreement across a model-free regex extractor and a cross-family LLM extractor, system-level Spearman 1.0), and give a verifier-guided generation method that improves precision and recall without references. We release the benchmark, structured annotations, metric, baselines, and an interactive demo.