Medindo a Fidelidade no Raciocínio em Cadeia de Pensamento

Resumo

Modelos de linguagem de grande escala (LLMs) apresentam melhor desempenho quando produzem raciocínios passo a passo, conhecidos como "Cadeia de Pensamento" (Chain-of-Thought, CoT), antes de responder a uma pergunta. No entanto, não está claro se o raciocínio declarado é uma explicação fiel do raciocínio real do modelo (ou seja, seu processo para responder à pergunta). Investigamos hipóteses sobre como o raciocínio CoT pode ser infiel, examinando como as previsões do modelo mudam quando intervimos no CoT (por exemplo, adicionando erros ou parafraseando-o). Os modelos mostram grande variação entre tarefas em quão fortemente eles condicionam suas previsões ao CoT, às vezes dependendo fortemente dele e outras vezes ignorando-o quase completamente. O aumento de desempenho proporcionado pelo CoT não parece vir apenas do cálculo adicional em tempo de teste ou da informação codificada pela formulação específica do CoT. À medida que os modelos se tornam maiores e mais capazes, eles produzem raciocínios menos fiéis na maioria das tarefas que estudamos. No geral, nossos resultados sugerem que o CoT pode ser fiel se as circunstâncias, como o tamanho do modelo e a tarefa, forem cuidadosamente escolhidas.

English

Large language models (LLMs) perform better when they produce step-by-step, "Chain-of-Thought" (CoT) reasoning before answering a question, but it is unclear if the stated reasoning is a faithful explanation of the model's actual reasoning (i.e., its process for answering the question). We investigate hypotheses for how CoT reasoning may be unfaithful, by examining how the model predictions change when we intervene on the CoT (e.g., by adding mistakes or paraphrasing it). Models show large variation across tasks in how strongly they condition on the CoT when predicting their answer, sometimes relying heavily on the CoT and other times primarily ignoring it. CoT's performance boost does not seem to come from CoT's added test-time compute alone or from information encoded via the particular phrasing of the CoT. As models become larger and more capable, they produce less faithful reasoning on most tasks we study. Overall, our results suggest that CoT can be faithful if the circumstances such as the model size and task are carefully chosen.

Medindo a Fidelidade no Raciocínio em Cadeia de Pensamento

Measuring Faithfulness in Chain-of-Thought Reasoning

Resumo

Support