ChatPaper.aiChatPaper

Messung der Zuverlässigkeit in der Chain-of-Thought-Argumentation

Measuring Faithfulness in Chain-of-Thought Reasoning

July 17, 2023
Autoren: Tamera Lanham, Anna Chen, Ansh Radhakrishnan, Benoit Steiner, Carson Denison, Danny Hernandez, Dustin Li, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamilė Lukošiūtė, Karina Nguyen, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Robin Larson, Sam McCandlish, Sandipan Kundu, Saurav Kadavath, Shannon Yang, Thomas Henighan, Timothy Maxwell, Timothy Telleen-Lawton, Tristan Hume, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) erzielen bessere Ergebnisse, wenn sie schrittweise, „Chain-of-Thought“ (CoT)-Argumentationen erstellen, bevor sie eine Frage beantworten. Es ist jedoch unklar, ob die angegebene Argumentation eine treue Erklärung der tatsächlichen Denkweise des Modells ist (d. h. seines Prozesses zur Beantwortung der Frage). Wir untersuchen Hypothesen, wie CoT-Argumentationen unfaithful sein könnten, indem wir analysieren, wie sich die Modellvorhersagen ändern, wenn wir in die CoT eingreifen (z. B. durch das Hinzufügen von Fehlern oder deren Umformulierung). Modelle zeigen große Unterschiede zwischen Aufgaben darin, wie stark sie bei der Vorhersage ihrer Antwort auf die CoT konditionieren – manchmal verlassen sie sich stark auf die CoT, während sie sie in anderen Fällen weitgehend ignorieren. Der Leistungsschub durch CoT scheint nicht allein auf die zusätzliche Rechenleistung zur Testzeit oder auf die durch die spezifische Formulierung der CoT kodierten Informationen zurückzuführen zu sein. Wenn Modelle größer und leistungsfähiger werden, erzeugen sie in den meisten von uns untersuchten Aufgaben weniger treue Argumentationen. Insgesamt deuten unsere Ergebnisse darauf hin, dass CoT treu sein kann, wenn die Umstände wie Modellgröße und Aufgabe sorgfältig ausgewählt werden.
English
Large language models (LLMs) perform better when they produce step-by-step, "Chain-of-Thought" (CoT) reasoning before answering a question, but it is unclear if the stated reasoning is a faithful explanation of the model's actual reasoning (i.e., its process for answering the question). We investigate hypotheses for how CoT reasoning may be unfaithful, by examining how the model predictions change when we intervene on the CoT (e.g., by adding mistakes or paraphrasing it). Models show large variation across tasks in how strongly they condition on the CoT when predicting their answer, sometimes relying heavily on the CoT and other times primarily ignoring it. CoT's performance boost does not seem to come from CoT's added test-time compute alone or from information encoded via the particular phrasing of the CoT. As models become larger and more capable, they produce less faithful reasoning on most tasks we study. Overall, our results suggest that CoT can be faithful if the circumstances such as the model size and task are carefully chosen.
PDF281December 15, 2024