Präzision ist nicht Treue: Abdeckungsbewusste Evaluierung von fundierter Generierung mit einem vollständigen Orakel

Zusammenfassung

Referenzfreie Treue-Metriken überprüfen jede atomare Behauptung eines Modells anhand der Grundwahrheit und werden zunehmend zur Bewertung von grundierter Generation eingesetzt. Wir zeigen, dass sie einen blinden Fleck teilen: Sie messen nur die Präzision – werden die genannten Behauptungen gestützt? – und belohnen daher Enthaltung, da ein Modell nahezu perfekte Treue erzielen kann, indem es fast nichts sagt. Wir machen dies messbar mittels Formel-1-Telemetrie, einem Bereich, in dem strategische Grundwahrheiten deterministisch und, entscheidend, vollständig abgeleitet werden: Für jede Entscheidung kennen wir die vollständige Menge der relevanten Fakten. Diese Vollständigkeit – die in Open-Domain-Treue-Benchmarks fehlt – erlaubt es uns, den Recall (Abdeckung der relevanten Fakten) exakt sowie die Präzision zu messen. In einem mehrsprachigen (EN/ES/PT) Benchmark mit 7.253 Entscheidungsinstanzen aus 150 Rennen deckt das präziseste Frontier-Modell weniger als die Hälfte der relevanten Fakten ab und belegt nach F1 den letzten Platz, sodass die Anforderung von Abdeckung die Systeme neu ordnet; derselbe Effekt zeigt sich in einem zweiten Bereich mit vollständigem Oracle (NOAA-Wettervorhersagen). Eine Prompt-Ablation zeigt, dass die geringe Abdeckung kein Artefakt unzureichenden Promptings ist: Die explizite Aufforderung an Modelle, gründlich zu sein, schließt die Lücke nicht. Wir kombinieren Treue und Abdeckung zu einem einzigen Score, validieren die Metrik (kontrollierte Perturbation; Übereinstimmung zwischen einem modellfreien Regex-Extraktor und einem familienübergreifenden LLM-Extraktor, systemweiter Spearman 1.0) und präsentieren eine verifikatorgesteuerte Generierungsmethode, die Präzision und Recall ohne Referenzen verbessert. Wir veröffentlichen den Benchmark, strukturierte Annotationen, die Metrik, Baseline-Methoden und eine interaktive Demo.

English

Reference-free faithfulness metrics verify each atomic claim a model makes against ground truth, and are increasingly used to evaluate grounded generation. We show they share a blind spot: they measure only precision -- are the stated claims supported? -- and therefore reward abstention, since a model can score near-perfect faithfulness by saying almost nothing. We make this measurable using Formula 1 telemetry, a domain where strategic ground truth is derived deterministically and, crucially, completely: for each decision we know the full set of facts that mattered. This completeness -- absent in open-domain faithfulness benchmarks -- lets us measure recall (coverage of the relevant facts) exactly, alongside precision. On a multilingual (EN/ES/PT) benchmark of 7,253 decision instances spanning 150 races, the most precise frontier model covers under half of the relevant facts and ranks last by F1, so requiring coverage reorders the systems; the same effect reappears in a second complete-oracle domain (NOAA weather forecasts). A prompt ablation shows the low coverage is not an under-prompting artifact: explicitly asking models to be thorough does not close the gap. We pair faithfulness with coverage into a single score, validate the metric (controlled perturbation; agreement across a model-free regex extractor and a cross-family LLM extractor, system-level Spearman 1.0), and give a verifier-guided generation method that improves precision and recall without references. We release the benchmark, structured annotations, metric, baselines, and an interactive demo.