Las métricas de fidelidad no miden la fidelidad: una metaevaluación con datos de referencia

Resumen

Las cadenas de pensamiento (CoT, por sus siglas en inglés) se han vuelto centrales en la interpretación y auditoría del comportamiento de los modelos de lenguaje de gran escala. Sin embargo, cada vez hay más evidencia que sugiere que estos rastros a menudo no representan fielmente los cómputos subyacentes a las predicciones de un modelo. Se han propuesto varias métricas de fidelidad, pero no se sabe si realmente miden la fidelidad. Responder a esto requiere etiquetas de verdad fundamental, que son difíciles de obtener porque los cómputos internos no son directamente observables. En consecuencia, la mayoría de los trabajos que proponen métricas solo reportan puntajes absolutos o comparaciones con métricas previas, y los pocos puntos de referencia existentes dependen de aproximaciones como la plausibilidad o la importancia, propiedades ortogonales a la fidelidad que pueden engañar sobre si una CoT es confiable. Abordamos este desafío construyendo tareas cuyos resultados revelan qué cómputos intermedios debieron producirlos, y desarrollando un pipeline de etiquetado automatizado que genera etiquetas de verdad fundamental de fidelidad tanto a nivel de paso como de CoT. Sobre esta metodología, presentamos BonaFide, un punto de referencia de 3066 CoT etiquetadas en 13 tareas y 10 modelos, y lo utilizamos para realizar la primera evaluación sistemática de métricas de fidelidad prominentes. Nuestros experimentos muestran que la mayoría de las métricas rinden cerca del azar, presentan fuertes sesgos de predicción y se degradan en CoT más largas. La mejor métrica alcanza solo 0,70 AUROC a nivel de CoT, mientras que otra alcanza 0,59 a nivel de paso, sin que ninguna se transfiera entre configuraciones, además de implicar un costo computacional prohibitivamente alto. Nuestros resultados revelan brechas fundamentales en la evaluación actual de la fidelidad y exigen el desarrollo de métricas más fiables y eficientes.

English

Chains of thought (CoTs) have become central in interpreting and auditing behaviors of large language models. Yet growing evidence suggests that these traces often fail to faithfully represent the computations behind a model's predictions. Several faithfulness metrics have been proposed, but whether they indeed measure faithfulness remains unknown. Answering this requires ground-truth labels, which are hard to obtain since internal computations are not directly observable. Consequently, most works proposing metrics report only absolute scores or comparisons to prior metrics, and the few existing benchmarks rely on proxies like plausibility or importance, properties orthogonal to faithfulness that can mislead about whether a CoT can be trusted. We address this challenge by constructing tasks whose outputs reveal which intermediate computations must have produced them, and developing an automated labeling pipeline that yields ground-truth faithfulness labels at both the step and CoT level. Building on this methodology, we present BonaFide, a benchmark of 3,066 labeled CoTs across 13 tasks and 10 models, and use it to conduct the first systematic evaluation of prominent faithfulness metrics. Our experiments show that most metrics perform near chance, exhibit strong prediction biases and degrade on longer CoTs. The best metric reaches only 0.70 AUROC at the CoT level while another reaches 0.59 at the step level, with neither transferring across settings, while entailing prohibitively high computational cost. Our results expose fundamental gaps in current faithfulness evaluation and call for the development of more reliable and efficient metrics.