Метрики верности не измеряют верность: мета-оценка с эталонными данными

Аннотация

Цепочки рассуждений (CoT) стали центральным элементом интерпретации и аудита поведения больших языковых моделей. Однако растущее количество свидетельств указывает на то, что эти трассы часто неверно отражают вычисления, лежащие в основе предсказаний модели. Было предложено несколько метрик верности, но неизвестно, действительно ли они измеряют верность. Ответ на этот вопрос требует эталонных (ground-truth) меток, которые трудно получить, поскольку внутренние вычисления не поддаются прямому наблюдению. В результате большинство работ, предлагающих метрики, сообщают лишь абсолютные показатели или сравнения с предыдущими метриками, а немногие существующие бенчмарки полагаются на прокси-переменные, такие как правдоподобие или важность, — свойства, ортогональные верности, которые могут вводить в заблуждение относительно того, можно ли доверять CoT. Мы решаем эту задачу, конструируя задания, выходные данные которых раскрывают, какие промежуточные вычисления должны были их породить, и разрабатывая автоматизированный конвейер разметки, который даёт эталонные метки верности как на уровне шагов, так и на уровне цепочек CoT. Основываясь на этой методологии, мы представляем BonaFide — бенчмарк из 3066 размеченных CoT, охватывающий 13 заданий и 10 моделей, и используем его для первого систематического оценивания известных метрик верности. Наши эксперименты показывают, что большинство метрик работают на уровне случайного угадывания, демонстрируют сильные предсказательные смещения и ухудшают качество на более длинных CoT. Лучшая метрика достигает лишь 0,70 AUROC на уровне CoT, в то время как другая — 0,59 на уровне шагов, причём ни одна из них не переносится между сценариями, а также сопряжена с непомерно высокими вычислительными затратами. Наши результаты выявляют фундаментальные пробелы в современной оценке верности и призывают к разработке более надёжных и эффективных метрик.

English

Chains of thought (CoTs) have become central in interpreting and auditing behaviors of large language models. Yet growing evidence suggests that these traces often fail to faithfully represent the computations behind a model's predictions. Several faithfulness metrics have been proposed, but whether they indeed measure faithfulness remains unknown. Answering this requires ground-truth labels, which are hard to obtain since internal computations are not directly observable. Consequently, most works proposing metrics report only absolute scores or comparisons to prior metrics, and the few existing benchmarks rely on proxies like plausibility or importance, properties orthogonal to faithfulness that can mislead about whether a CoT can be trusted. We address this challenge by constructing tasks whose outputs reveal which intermediate computations must have produced them, and developing an automated labeling pipeline that yields ground-truth faithfulness labels at both the step and CoT level. Building on this methodology, we present BonaFide, a benchmark of 3,066 labeled CoTs across 13 tasks and 10 models, and use it to conduct the first systematic evaluation of prominent faithfulness metrics. Our experiments show that most metrics perform near chance, exhibit strong prediction biases and degrade on longer CoTs. The best metric reaches only 0.70 AUROC at the CoT level while another reaches 0.59 at the step level, with neither transferring across settings, while entailing prohibitively high computational cost. Our results expose fundamental gaps in current faithfulness evaluation and call for the development of more reliable and efficient metrics.