Mesurer la fidélité dans le raisonnement en chaîne de pensée
Measuring Faithfulness in Chain-of-Thought Reasoning
July 17, 2023
Auteurs: Tamera Lanham, Anna Chen, Ansh Radhakrishnan, Benoit Steiner, Carson Denison, Danny Hernandez, Dustin Li, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamilė Lukošiūtė, Karina Nguyen, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Robin Larson, Sam McCandlish, Sandipan Kundu, Saurav Kadavath, Shannon Yang, Thomas Henighan, Timothy Maxwell, Timothy Telleen-Lawton, Tristan Hume, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez
cs.AI
Résumé
Les grands modèles de langage (LLM) obtiennent de meilleures performances lorsqu'ils produisent un raisonnement étape par étape, appelé "Chaîne de Pensée" (CoT), avant de répondre à une question. Cependant, il n'est pas clair si ce raisonnement énoncé constitue une explication fidèle du raisonnement réel du modèle (c'est-à-dire son processus pour répondre à la question). Nous examinons des hypothèses sur la manière dont le raisonnement CoT pourrait ne pas être fidèle, en étudiant comment les prédictions du modèle changent lorsque nous intervenons sur la CoT (par exemple, en ajoutant des erreurs ou en la reformulant). Les modèles montrent une grande variabilité selon les tâches dans la mesure où ils s'appuient sur la CoT pour prédire leur réponse, parfois en dépendant fortement de la CoT et d'autres fois en l'ignorant principalement. L'amélioration des performances apportée par la CoT ne semble pas provenir uniquement du calcul supplémentaire au moment du test ou de l'information encodée via la formulation spécifique de la CoT. À mesure que les modèles deviennent plus grands et plus performants, ils produisent un raisonnement moins fidèle sur la plupart des tâches étudiées. Globalement, nos résultats suggèrent que la CoT peut être fidèle si des circonstances telles que la taille du modèle et la tâche sont soigneusement choisies.
English
Large language models (LLMs) perform better when they produce step-by-step,
"Chain-of-Thought" (CoT) reasoning before answering a question, but it is
unclear if the stated reasoning is a faithful explanation of the model's actual
reasoning (i.e., its process for answering the question). We investigate
hypotheses for how CoT reasoning may be unfaithful, by examining how the model
predictions change when we intervene on the CoT (e.g., by adding mistakes or
paraphrasing it). Models show large variation across tasks in how strongly they
condition on the CoT when predicting their answer, sometimes relying heavily on
the CoT and other times primarily ignoring it. CoT's performance boost does not
seem to come from CoT's added test-time compute alone or from information
encoded via the particular phrasing of the CoT. As models become larger and
more capable, they produce less faithful reasoning on most tasks we study.
Overall, our results suggest that CoT can be faithful if the circumstances such
as the model size and task are carefully chosen.