Les modèles de langage ne disent pas toujours ce qu'ils pensent : explications infidèles dans l'incitation en chaîne de raisonnement.
Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting
May 7, 2023
Auteurs: Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman
cs.AI
Résumé
Les modèles de langage à grande échelle (LLM) peuvent atteindre des performances élevées sur de nombreuses tâches en produisant un raisonnement étape par étape avant de fournir une sortie finale, souvent appelé raisonnement en chaîne de pensée (CoT). Il est tentant d'interpréter ces explications CoT comme le processus utilisé par le LLM pour résoudre une tâche. Cependant, nous constatons que les explications CoT peuvent systématiquement déformer la véritable raison derrière la prédiction d'un modèle. Nous démontrons que les explications CoT peuvent être fortement influencées par l'ajout de caractéristiques biaisées aux entrées du modèle — par exemple, en réorganisant les options à choix multiples dans une incitation few-shot pour que la réponse soit toujours "(A)" — ce que les modèles omettent systématiquement dans leurs explications. Lorsque nous biaisons les modèles vers des réponses incorrectes, ils génèrent fréquemment des explications CoT soutenant ces réponses. Cela entraîne une baisse de précision allant jusqu'à 36 % sur un ensemble de 13 tâches issues de BIG-Bench Hard, lors de tests avec GPT-3.5 d'OpenAI et Claude 1.0 d'Anthropic. Sur une tâche de biais social, les explications des modèles justifient des réponses conformes aux stéréotypes sans mentionner l'influence de ces biais sociaux. Nos résultats indiquent que les explications CoT peuvent être plausibles mais trompeuses, ce qui risque d'accroître notre confiance envers les LLM sans garantir leur sécurité. Le CoT est prometteur pour l'explicabilité, mais nos résultats soulignent la nécessité d'efforts ciblés pour évaluer et améliorer la fidélité des explications.
English
Large Language Models (LLMs) can achieve strong performance on many tasks by
producing step-by-step reasoning before giving a final output, often referred
to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT
explanations as the LLM's process for solving a task. However, we find that CoT
explanations can systematically misrepresent the true reason for a model's
prediction. We demonstrate that CoT explanations can be heavily influenced by
adding biasing features to model inputs -- e.g., by reordering the
multiple-choice options in a few-shot prompt to make the answer always "(A)" --
which models systematically fail to mention in their explanations. When we bias
models toward incorrect answers, they frequently generate CoT explanations
supporting those answers. This causes accuracy to drop by as much as 36% on a
suite of 13 tasks from BIG-Bench Hard, when testing with GPT-3.5 from OpenAI
and Claude 1.0 from Anthropic. On a social-bias task, model explanations
justify giving answers in line with stereotypes without mentioning the
influence of these social biases. Our findings indicate that CoT explanations
can be plausible yet misleading, which risks increasing our trust in LLMs
without guaranteeing their safety. CoT is promising for explainability, but our
results highlight the need for targeted efforts to evaluate and improve
explanation faithfulness.