Treue-Metriken messen nicht die Treue: Eine Meta-Evaluation mit Ground Truth

Zusammenfassung

Denkketten (Chains of Thought, CoTs) sind zentral für die Interpretation und Überprüfung des Verhaltens großer Sprachmodelle geworden. Dennoch deuten zunehmende Belege darauf hin, dass diese Spuren oft nicht getreu die Berechnungen widerspiegeln, die den Vorhersagen eines Modells zugrunde liegen. Es wurden mehrere Metriken zur Treue (Faithfulness) vorgeschlagen, doch ob sie tatsächlich die Treue messen, bleibt unbekannt. Die Beantwortung dieser Frage erfordert Ground-Truth-Labels, die schwer zu erhalten sind, da interne Berechnungen nicht direkt beobachtbar sind. Folglich berichten die meisten Arbeiten, die Metriken vorschlagen, nur absolute Werte oder Vergleiche mit früheren Metriken, und die wenigen vorhandenen Benchmarks stützen sich auf Proxy-Größen wie Plausibilität oder Wichtigkeit – Eigenschaften, die orthogonal zur Treue sind und in die Irre führen können, ob einer Denkkette vertraut werden kann. Wir begegnen dieser Herausforderung, indem wir Aufgaben konstruieren, deren Ergebnisse offenlegen, welche Zwischenberechnungen sie hervorgebracht haben müssen, und eine automatisierte Kennzeichnungspipeline entwickeln, die Ground-Truth-Treue-Labels sowohl auf Schritt- als auch auf CoT-Ebene liefert. Aufbauend auf dieser Methodik präsentieren wir BonaFide, einen Benchmark mit 3.066 gekennzeichneten Denkketten über 13 Aufgaben und 10 Modelle hinweg, und nutzen ihn für die erste systematische Evaluierung prominenter Treue-Metriken. Unsere Experimente zeigen, dass die meisten Metriken nahe dem Zufallsniveau arbeiten, starke Vorhersageverzerrungen aufweisen und bei längeren Denkketten schlechter abschneiden. Die beste Metrik erreicht nur 0,70 AUROC auf CoT-Ebene, während eine andere 0,59 auf Schritt-Ebene erreicht, wobei keine von ihnen über verschiedene Umgebungen hinweg übertragbar ist und beide mit unerschwinglich hohem Rechenaufwand verbunden sind. Unsere Ergebnisse offenbaren grundlegende Lücken in der aktuellen Treuebewertung und fordern die Entwicklung zuverlässigerer und effizienterer Metriken.

English

Chains of thought (CoTs) have become central in interpreting and auditing behaviors of large language models. Yet growing evidence suggests that these traces often fail to faithfully represent the computations behind a model's predictions. Several faithfulness metrics have been proposed, but whether they indeed measure faithfulness remains unknown. Answering this requires ground-truth labels, which are hard to obtain since internal computations are not directly observable. Consequently, most works proposing metrics report only absolute scores or comparisons to prior metrics, and the few existing benchmarks rely on proxies like plausibility or importance, properties orthogonal to faithfulness that can mislead about whether a CoT can be trusted. We address this challenge by constructing tasks whose outputs reveal which intermediate computations must have produced them, and developing an automated labeling pipeline that yields ground-truth faithfulness labels at both the step and CoT level. Building on this methodology, we present BonaFide, a benchmark of 3,066 labeled CoTs across 13 tasks and 10 models, and use it to conduct the first systematic evaluation of prominent faithfulness metrics. Our experiments show that most metrics perform near chance, exhibit strong prediction biases and degrade on longer CoTs. The best metric reaches only 0.70 AUROC at the CoT level while another reaches 0.59 at the step level, with neither transferring across settings, while entailing prohibitively high computational cost. Our results expose fundamental gaps in current faithfulness evaluation and call for the development of more reliable and efficient metrics.