La précision n'est pas la fidélité : Évaluation de la génération ancrée tenant compte de la couverture avec un oracle complet

Résumé

Les métriques de fidélité sans référence vérifient chaque affirmation atomique d'un modèle par rapport à la vérité terrain et sont de plus en plus utilisées pour évaluer la génération contextualisée. Nous montrons qu'elles partagent un angle mort : elles ne mesurent que la précision – les affirmations énoncées sont-elles étayées ? – et récompensent donc l'abstention, puisqu'un modèle peut obtenir une fidélité quasi parfaite en ne disant presque rien. Nous rendons cela mesurable à l'aide de la télémétrie de Formule 1, un domaine où la vérité terrain stratégique est dérivée de manière déterministe et, surtout, complète : pour chaque décision, nous connaissons l'ensemble complet des faits qui ont compté. Cette complétude – absente des benchmarks de fidélité en domaine ouvert – nous permet de mesurer exactement le rappel (couverture des faits pertinents), parallèlement à la précision. Sur un benchmark multilingue (EN/ES/PT) de 7 253 décisions couvrant 150 courses, le modèle de pointe le plus précis couvre moins de la moitié des faits pertinents et se classe dernier en F1, de sorte que l'exigence de couverture réordonne les systèmes ; le même effet réapparaît dans un second domaine à oracle complet (prévisions météorologiques de la NOAA). Une ablation de l'invitation montre que la faible couverture n'est pas un artefact de sous-invitation : demander explicitement aux modèles d'être exhaustifs ne comble pas l'écart. Nous associons la fidélité et la couverture en un seul score, validons la métrique (perturbation contrôlée ; concordance entre un extracteur regex sans modèle et un extracteur LLM inter-familles, Spearman 1.0 au niveau système), et proposons une méthode de génération guidée par un vérificateur qui améliore la précision et le rappel sans référence. Nous publions le benchmark, les annotations structurées, la métrique, les bases de référence et une démo interactive.

English

Reference-free faithfulness metrics verify each atomic claim a model makes against ground truth, and are increasingly used to evaluate grounded generation. We show they share a blind spot: they measure only precision -- are the stated claims supported? -- and therefore reward abstention, since a model can score near-perfect faithfulness by saying almost nothing. We make this measurable using Formula 1 telemetry, a domain where strategic ground truth is derived deterministically and, crucially, completely: for each decision we know the full set of facts that mattered. This completeness -- absent in open-domain faithfulness benchmarks -- lets us measure recall (coverage of the relevant facts) exactly, alongside precision. On a multilingual (EN/ES/PT) benchmark of 7,253 decision instances spanning 150 races, the most precise frontier model covers under half of the relevant facts and ranks last by F1, so requiring coverage reorders the systems; the same effect reappears in a second complete-oracle domain (NOAA weather forecasts). A prompt ablation shows the low coverage is not an under-prompting artifact: explicitly asking models to be thorough does not close the gap. We pair faithfulness with coverage into a single score, validate the metric (controlled perturbation; agreement across a model-free regex extractor and a cross-family LLM extractor, system-level Spearman 1.0), and give a verifier-guided generation method that improves precision and recall without references. We release the benchmark, structured annotations, metric, baselines, and an interactive demo.