Les métriques de fidélité ne mesurent pas la fidélité : une méta-évaluation avec vérité terrain

Résumé

Les chaînes de pensée (CoT) sont devenues centrales pour interpréter et auditer les comportements des grands modèles de langage. Cependant, des preuves croissantes suggèrent que ces traces échouent souvent à représenter fidèlement les calculs sous-jacents aux prédictions d’un modèle. Plusieurs métriques de fidélité ont été proposées, mais on ignore si elles mesurent effectivement la fidélité. Pour répondre à cette question, il est nécessaire de disposer d’étiquettes de vérité terrain, difficiles à obtenir car les calculs internes ne sont pas directement observables. Par conséquent, la plupart des travaux proposant des métriques ne rapportent que des scores absolus ou des comparaisons avec des métriques antérieures, et les rares référentiels existants s’appuient sur des proxys comme la plausibilité ou l’importance, des propriétés orthogonales à la fidélité qui peuvent induire en erreur quant à la confiance accordée à une CoT. Nous relevons ce défi en construisant des tâches dont les résultats révèlent quels calculs intermédiaires ont nécessairement dû les produire, et en développant un pipeline d’annotation automatisé qui fournit des étiquettes de fidélité de vérité terrain, à la fois au niveau des étapes et au niveau de la CoT. En nous appuyant sur cette méthodologie, nous présentons BonaFide, un référentiel de 3 066 CoT étiquetées couvrant 13 tâches et 10 modèles, et l’utilisons pour mener la première évaluation systématique des métriques de fidélité les plus connues. Nos expériences montrent que la plupart des métriques obtiennent des résultats proches du hasard, présentent de forts biais de prédiction et se dégradent sur les CoT plus longues. La meilleure métrique atteint seulement 0,70 d’AUROC au niveau de la CoT tandis qu’une autre atteint 0,59 au niveau des étapes, sans transfert entre contextes, et cela à un coût de calcul prohibitif. Nos résultats mettent en évidence des lacunes fondamentales dans l’évaluation actuelle de la fidélité et appellent au développement de métriques plus fiables et plus efficaces.

English

Chains of thought (CoTs) have become central in interpreting and auditing behaviors of large language models. Yet growing evidence suggests that these traces often fail to faithfully represent the computations behind a model's predictions. Several faithfulness metrics have been proposed, but whether they indeed measure faithfulness remains unknown. Answering this requires ground-truth labels, which are hard to obtain since internal computations are not directly observable. Consequently, most works proposing metrics report only absolute scores or comparisons to prior metrics, and the few existing benchmarks rely on proxies like plausibility or importance, properties orthogonal to faithfulness that can mislead about whether a CoT can be trusted. We address this challenge by constructing tasks whose outputs reveal which intermediate computations must have produced them, and developing an automated labeling pipeline that yields ground-truth faithfulness labels at both the step and CoT level. Building on this methodology, we present BonaFide, a benchmark of 3,066 labeled CoTs across 13 tasks and 10 models, and use it to conduct the first systematic evaluation of prominent faithfulness metrics. Our experiments show that most metrics perform near chance, exhibit strong prediction biases and degrade on longer CoTs. The best metric reaches only 0.70 AUROC at the CoT level while another reaches 0.59 at the step level, with neither transferring across settings, while entailing prohibitively high computational cost. Our results expose fundamental gaps in current faithfulness evaluation and call for the development of more reliable and efficient metrics.