Métricas de Fidelidade Não Medem Fidelidade: Uma Meta-Avaliação com Verdade Fundamental

Resumo

Cadeias de pensamento (CoTs) tornaram-se centrais na interpretação e auditoria de comportamentos de grandes modelos de linguagem. No entanto, evidências crescentes sugerem que esses rastros frequentemente não representam fielmente os cálculos subjacentes às previsões de um modelo. Várias métricas de fidedignidade foram propostas, mas se elas realmente medem a fidedignidade permanece desconhecido. Responder a isso requer rótulos de verdade fundamental, que são difíceis de obter, pois os cálculos internos não são diretamente observáveis. Consequentemente, a maioria dos trabalhos que propõem métricas relata apenas pontuações absolutas ou comparações com métricas anteriores, e os poucos benchmarks existentes dependem de proxies como plausibilidade ou importância, propriedades ortogonais à fidedignidade que podem enganar sobre se uma CoT pode ser confiável. Abordamos esse desafio construindo tarefas cujos resultados revelam quais cálculos intermediários devem tê-los produzido, e desenvolvendo um pipeline de rotulagem automatizada que gera rótulos de fidedignidade de verdade fundamental tanto no nível de etapas quanto no de CoT. Com base nessa metodologia, apresentamos o BonaFide, um benchmark com 3.066 CoTs rotuladas em 13 tarefas e 10 modelos, e o utilizamos para conduzir a primeira avaliação sistemática de métricas proeminentes de fidedignidade. Nossos experimentos mostram que a maioria das métricas apresenta desempenho próximo ao aleatório, exibe fortes vieses de predição e se degrada em CoTs mais longas. A melhor métrica atinge apenas 0,70 de AUROC no nível de CoT, enquanto outra atinge 0,59 no nível de etapa, com nenhuma delas transferindo entre configurações, além de implicarem custos computacionais proibitivamente altos. Nossos resultados expõem lacunas fundamentais na avaliação atual de fidedignidade e clamam pelo desenvolvimento de métricas mais confiáveis e eficientes.

English

Chains of thought (CoTs) have become central in interpreting and auditing behaviors of large language models. Yet growing evidence suggests that these traces often fail to faithfully represent the computations behind a model's predictions. Several faithfulness metrics have been proposed, but whether they indeed measure faithfulness remains unknown. Answering this requires ground-truth labels, which are hard to obtain since internal computations are not directly observable. Consequently, most works proposing metrics report only absolute scores or comparisons to prior metrics, and the few existing benchmarks rely on proxies like plausibility or importance, properties orthogonal to faithfulness that can mislead about whether a CoT can be trusted. We address this challenge by constructing tasks whose outputs reveal which intermediate computations must have produced them, and developing an automated labeling pipeline that yields ground-truth faithfulness labels at both the step and CoT level. Building on this methodology, we present BonaFide, a benchmark of 3,066 labeled CoTs across 13 tasks and 10 models, and use it to conduct the first systematic evaluation of prominent faithfulness metrics. Our experiments show that most metrics perform near chance, exhibit strong prediction biases and degrade on longer CoTs. The best metric reaches only 0.70 AUROC at the CoT level while another reaches 0.59 at the step level, with neither transferring across settings, while entailing prohibitively high computational cost. Our results expose fundamental gaps in current faithfulness evaluation and call for the development of more reliable and efficient metrics.