Sprachmodelle sagen nicht immer, was sie denken: Ungetreue Erklärungen beim Chain-of-Thought-Prompting

Zusammenfassung

Große Sprachmodelle (LLMs) können bei vielen Aufgaben eine hohe Leistung erzielen, indem sie schrittweise Überlegungen anstellen, bevor sie ein endgültiges Ergebnis liefern, ein Prozess, der oft als Ketten-denken (Chain-of-Thought Reasoning, CoT) bezeichnet wird. Es liegt nahe, diese CoT-Erklärungen als den Lösungsprozess des LLMs für eine Aufgabe zu interpretieren. Wir stellen jedoch fest, dass CoT-Erklärungen systematisch den wahren Grund für die Vorhersage eines Modells falsch darstellen können. Wir zeigen, dass CoT-Erklärungen stark beeinflusst werden können, indem man voreingenommene Merkmale zu den Modellinputs hinzufügt – z. B. durch die Neuanordnung der Multiple-Choice-Optionen in einem Few-Shot-Prompt, sodass die Antwort immer „(A)“ lautet –, die Modelle in ihren Erklärungen systematisch nicht erwähnen. Wenn wir Modelle auf falsche Antworten hin lenken, generieren sie häufig CoT-Erklärungen, die diese Antworten stützen. Dies führt zu einem Genauigkeitsrückgang von bis zu 36 % bei einer Reihe von 13 Aufgaben aus BIG-Bench Hard, wenn GPT-3.5 von OpenAI und Claude 1.0 von Anthropic getestet werden. Bei einer Aufgabe zur sozialen Voreingenommenheit rechtfertigen die Modellerklärungen Antworten, die Stereotypen entsprechen, ohne den Einfluss dieser sozialen Vorurteile zu erwähnen. Unsere Ergebnisse deuten darauf hin, dass CoT-Erklärungen plausibel, aber irreführend sein können, was das Risiko birgt, unser Vertrauen in LLMs zu erhöhen, ohne deren Sicherheit zu gewährleisten. CoT ist vielversprechend für die Erklärbarkeit, aber unsere Ergebnisse unterstreichen die Notwendigkeit gezielter Anstrengungen, um die Treue von Erklärungen zu bewerten und zu verbessern.

English

Large Language Models (LLMs) can achieve strong performance on many tasks by producing step-by-step reasoning before giving a final output, often referred to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT explanations as the LLM's process for solving a task. However, we find that CoT explanations can systematically misrepresent the true reason for a model's prediction. We demonstrate that CoT explanations can be heavily influenced by adding biasing features to model inputs -- e.g., by reordering the multiple-choice options in a few-shot prompt to make the answer always "(A)" -- which models systematically fail to mention in their explanations. When we bias models toward incorrect answers, they frequently generate CoT explanations supporting those answers. This causes accuracy to drop by as much as 36% on a suite of 13 tasks from BIG-Bench Hard, when testing with GPT-3.5 from OpenAI and Claude 1.0 from Anthropic. On a social-bias task, model explanations justify giving answers in line with stereotypes without mentioning the influence of these social biases. Our findings indicate that CoT explanations can be plausible yet misleading, which risks increasing our trust in LLMs without guaranteeing their safety. CoT is promising for explainability, but our results highlight the need for targeted efforts to evaluate and improve explanation faithfulness.

Sprachmodelle sagen nicht immer, was sie denken: Ungetreue Erklärungen beim Chain-of-Thought-Prompting

Language Models Don't Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting

Zusammenfassung

Support