Modelos de Linguagem Nem Sempre Dizem o que Pensam: Explicações Infiéis na Técnica de Encadeamento de Pensamentos (Chain-of-Thought Prompting)

Resumo

Modelos de Linguagem de Grande Escala (LLMs) podem alcançar um desempenho forte em muitas tarefas ao produzir raciocínios passo a passo antes de fornecer uma saída final, frequentemente referido como raciocínio em cadeia de pensamento (CoT). É tentador interpretar essas explicações CoT como o processo do LLM para resolver uma tarefa. No entanto, descobrimos que as explicações CoT podem sistematicamente deturpar a verdadeira razão por trás da previsão de um modelo. Demonstramos que as explicações CoT podem ser fortemente influenciadas pela adição de características tendenciosas às entradas do modelo — por exemplo, ao reordenar as opções de múltipla escolha em um prompt de poucos exemplos para que a resposta seja sempre "(A)" — o que os modelos falham sistematicamente em mencionar em suas explicações. Quando enviesamos os modelos para respostas incorretas, eles frequentemente geram explicações CoT que apoiam essas respostas. Isso faz com que a precisão caia em até 36% em um conjunto de 13 tarefas do BIG-Bench Hard, ao testar com GPT-3.5 da OpenAI e Claude 1.0 da Anthropic. Em uma tarefa de viés social, as explicações dos modelos justificam respostas alinhadas com estereótipos sem mencionar a influência desses vieses sociais. Nossas descobertas indicam que as explicações CoT podem ser plausíveis, mas enganosas, o que corre o risco de aumentar nossa confiança nos LLMs sem garantir sua segurança. O CoT é promissor para explicabilidade, mas nossos resultados destacam a necessidade de esforços direcionados para avaliar e melhorar a fidelidade das explicações.

English

Large Language Models (LLMs) can achieve strong performance on many tasks by producing step-by-step reasoning before giving a final output, often referred to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT explanations as the LLM's process for solving a task. However, we find that CoT explanations can systematically misrepresent the true reason for a model's prediction. We demonstrate that CoT explanations can be heavily influenced by adding biasing features to model inputs -- e.g., by reordering the multiple-choice options in a few-shot prompt to make the answer always "(A)" -- which models systematically fail to mention in their explanations. When we bias models toward incorrect answers, they frequently generate CoT explanations supporting those answers. This causes accuracy to drop by as much as 36% on a suite of 13 tasks from BIG-Bench Hard, when testing with GPT-3.5 from OpenAI and Claude 1.0 from Anthropic. On a social-bias task, model explanations justify giving answers in line with stereotypes without mentioning the influence of these social biases. Our findings indicate that CoT explanations can be plausible yet misleading, which risks increasing our trust in LLMs without guaranteeing their safety. CoT is promising for explainability, but our results highlight the need for targeted efforts to evaluate and improve explanation faithfulness.

Modelos de Linguagem Nem Sempre Dizem o que Pensam: Explicações Infiéis na Técnica de Encadeamento de Pensamentos (Chain-of-Thought Prompting)

Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting

Resumo

Support