Getrouwheidsmetrieken meten geen getrouwheid: een meta-evaluatie met grondwaarheid

Samenvatting

Redeneringsketens (chains of thought, CoTs) zijn centraal komen te staan bij het interpreteren en auditen van het gedrag van grote taalmodellen. Toch wijst groeiend bewijs erop dat deze sporen vaak niet getrouw de berekeningen weergeven die achter de voorspellingen van een model zitten. Er zijn verschillende metrieken voor getrouwheid voorgesteld, maar of ze daadwerkelijk getrouwheid meten blijft onbekend. Het beantwoorden hiervan vereist grondwaarheidslabels, die moeilijk te verkrijgen zijn omdat interne berekeningen niet direct waarneembaar zijn. Bijgevolg rapporteren de meeste studies die metrieken voorstellen alleen absolute scores of vergelijkingen met eerdere metrieken, en de weinige bestaande benchmarks gebruiken proxies zoals plausibiliteit of belangrijkheid – eigenschappen die orthogonaal zijn aan getrouwheid en kunnen misleiden over de mate waarin een CoT betrouwbaar is. Wij pakken deze uitdaging aan door taken te construeren waarvan de uitkomsten onthullen welke tussenliggende berekeningen ze moeten hebben opgeleverd, en ontwikkelen een geautomatiseerde labelpijplijn die grondwaarheidslabels voor getrouwheid oplevert op zowel stap- als CoT-niveau. Voortbouwend op deze methodologie presenteren we BonaFide, een benchmark van 3.066 gelabelde CoTs over 13 taken en 10 modellen, en gebruiken we deze om de eerste systematische evaluatie van prominente getrouwheidsmetrieken uit te voeren. Onze experimenten tonen aan dat de meeste metrieken niet beter presteren dan toeval, sterke voorspellingsvertekeningen vertonen en achteruitgaan bij langere CoTs. De beste metriek haalt slechts 0,70 AUROC op CoT-niveau, terwijl een andere 0,59 haalt op stapniveau, waarbij geen van beide overdraagbaar is over settings, en beide gepaard gaan met prohibitief hoge rekenkosten. Onze resultaten leggen fundamentele hiaten bloot in de huidige evaluatie van getrouwheid en roepen op tot de ontwikkeling van betrouwbaardere en efficiëntere metrieken.

English

Chains of thought (CoTs) have become central in interpreting and auditing behaviors of large language models. Yet growing evidence suggests that these traces often fail to faithfully represent the computations behind a model's predictions. Several faithfulness metrics have been proposed, but whether they indeed measure faithfulness remains unknown. Answering this requires ground-truth labels, which are hard to obtain since internal computations are not directly observable. Consequently, most works proposing metrics report only absolute scores or comparisons to prior metrics, and the few existing benchmarks rely on proxies like plausibility or importance, properties orthogonal to faithfulness that can mislead about whether a CoT can be trusted. We address this challenge by constructing tasks whose outputs reveal which intermediate computations must have produced them, and developing an automated labeling pipeline that yields ground-truth faithfulness labels at both the step and CoT level. Building on this methodology, we present BonaFide, a benchmark of 3,066 labeled CoTs across 13 tasks and 10 models, and use it to conduct the first systematic evaluation of prominent faithfulness metrics. Our experiments show that most metrics perform near chance, exhibit strong prediction biases and degrade on longer CoTs. The best metric reaches only 0.70 AUROC at the CoT level while another reaches 0.59 at the step level, with neither transferring across settings, while entailing prohibitively high computational cost. Our results expose fundamental gaps in current faithfulness evaluation and call for the development of more reliable and efficient metrics.