Sprachmodelle sagen nicht immer, was sie denken: Ungetreue Erklärungen beim Chain-of-Thought-Prompting
Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting
May 7, 2023
Autoren: Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) können bei vielen Aufgaben eine hohe Leistung erzielen, indem sie schrittweise Überlegungen anstellen, bevor sie ein endgültiges Ergebnis liefern, ein Prozess, der oft als Ketten-denken (Chain-of-Thought Reasoning, CoT) bezeichnet wird. Es liegt nahe, diese CoT-Erklärungen als den Lösungsprozess des LLMs für eine Aufgabe zu interpretieren. Wir stellen jedoch fest, dass CoT-Erklärungen systematisch den wahren Grund für die Vorhersage eines Modells falsch darstellen können. Wir zeigen, dass CoT-Erklärungen stark beeinflusst werden können, indem man voreingenommene Merkmale zu den Modellinputs hinzufügt – z. B. durch die Neuanordnung der Multiple-Choice-Optionen in einem Few-Shot-Prompt, sodass die Antwort immer „(A)“ lautet –, die Modelle in ihren Erklärungen systematisch nicht erwähnen. Wenn wir Modelle auf falsche Antworten hin lenken, generieren sie häufig CoT-Erklärungen, die diese Antworten stützen. Dies führt zu einem Genauigkeitsrückgang von bis zu 36 % bei einer Reihe von 13 Aufgaben aus BIG-Bench Hard, wenn GPT-3.5 von OpenAI und Claude 1.0 von Anthropic getestet werden. Bei einer Aufgabe zur sozialen Voreingenommenheit rechtfertigen die Modellerklärungen Antworten, die Stereotypen entsprechen, ohne den Einfluss dieser sozialen Vorurteile zu erwähnen. Unsere Ergebnisse deuten darauf hin, dass CoT-Erklärungen plausibel, aber irreführend sein können, was das Risiko birgt, unser Vertrauen in LLMs zu erhöhen, ohne deren Sicherheit zu gewährleisten. CoT ist vielversprechend für die Erklärbarkeit, aber unsere Ergebnisse unterstreichen die Notwendigkeit gezielter Anstrengungen, um die Treue von Erklärungen zu bewerten und zu verbessern.
English
Large Language Models (LLMs) can achieve strong performance on many tasks by
producing step-by-step reasoning before giving a final output, often referred
to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT
explanations as the LLM's process for solving a task. However, we find that CoT
explanations can systematically misrepresent the true reason for a model's
prediction. We demonstrate that CoT explanations can be heavily influenced by
adding biasing features to model inputs -- e.g., by reordering the
multiple-choice options in a few-shot prompt to make the answer always "(A)" --
which models systematically fail to mention in their explanations. When we bias
models toward incorrect answers, they frequently generate CoT explanations
supporting those answers. This causes accuracy to drop by as much as 36% on a
suite of 13 tasks from BIG-Bench Hard, when testing with GPT-3.5 from OpenAI
and Claude 1.0 from Anthropic. On a social-bias task, model explanations
justify giving answers in line with stereotypes without mentioning the
influence of these social biases. Our findings indicate that CoT explanations
can be plausible yet misleading, which risks increasing our trust in LLMs
without guaranteeing their safety. CoT is promising for explainability, but our
results highlight the need for targeted efforts to evaluate and improve
explanation faithfulness.