La precisión no es fidelidad: Evaluación consciente de la cobertura de la generación fundamentada con un oráculo completo

Resumen

Las métricas de fidelidad sin referencia verifican cada afirmación atómica que un modelo realiza frente a la verdad fundamental y se utilizan cada vez más para evaluar la generación fundamentada. Demostramos que comparten un punto ciego: solo miden la precisión —¿están respaldadas las afirmaciones planteadas?— y, por lo tanto, recompensan la abstención, ya que un modelo puede obtener una puntuación casi perfecta en fidelidad al decir casi nada. Hacemos esto medible mediante la telemetría de Fórmula 1, un dominio donde la verdad fundamental estratégica se deriva de manera determinista y, crucialmente, completa: para cada decisión conocemos el conjunto completo de hechos que importaron. Esta completitud —ausente en los puntos de referencia de fidelidad de dominio abierto— nos permite medir exactamente la exhaustividad (cobertura de los hechos relevantes) junto con la precisión. En un punto de referencia multilingüe (EN/ES/PT) de 7253 instancias de decisión que abarcan 150 carreras, el modelo de frontera más preciso cubre menos de la mitad de los hechos relevantes y ocupa el último lugar según F1, por lo que exigir cobertura reordena los sistemas; el mismo efecto reaparece en un segundo dominio con oráculo completo (pronósticos meteorológicos de la NOAA). Una ablación de indicaciones muestra que la baja cobertura no es un artefacto de subestimulación: pedir explícitamente a los modelos que sean exhaustivos no cierra la brecha. Combinamos fidelidad y cobertura en una sola puntuación, validamos la métrica (perturbación controlada; concordancia entre un extractor de expresiones regulares sin modelo y un extractor LLM de diferentes familias, Spearman a nivel de sistema de 1.0), y proporcionamos un método de generación guiada por verificador que mejora la precisión y la exhaustividad sin referencias. Publicamos el punto de referencia, las anotaciones estructuradas, la métrica, las líneas base y una demostración interactiva.

English

Reference-free faithfulness metrics verify each atomic claim a model makes against ground truth, and are increasingly used to evaluate grounded generation. We show they share a blind spot: they measure only precision -- are the stated claims supported? -- and therefore reward abstention, since a model can score near-perfect faithfulness by saying almost nothing. We make this measurable using Formula 1 telemetry, a domain where strategic ground truth is derived deterministically and, crucially, completely: for each decision we know the full set of facts that mattered. This completeness -- absent in open-domain faithfulness benchmarks -- lets us measure recall (coverage of the relevant facts) exactly, alongside precision. On a multilingual (EN/ES/PT) benchmark of 7,253 decision instances spanning 150 races, the most precise frontier model covers under half of the relevant facts and ranks last by F1, so requiring coverage reorders the systems; the same effect reappears in a second complete-oracle domain (NOAA weather forecasts). A prompt ablation shows the low coverage is not an under-prompting artifact: explicitly asking models to be thorough does not close the gap. We pair faithfulness with coverage into a single score, validate the metric (controlled perturbation; agreement across a model-free regex extractor and a cross-family LLM extractor, system-level Spearman 1.0), and give a verifier-guided generation method that improves precision and recall without references. We release the benchmark, structured annotations, metric, baselines, and an interactive demo.