Medición de la Fidelidad en el Razonamiento de Cadena de Pensamiento
Measuring Faithfulness in Chain-of-Thought Reasoning
July 17, 2023
Autores: Tamera Lanham, Anna Chen, Ansh Radhakrishnan, Benoit Steiner, Carson Denison, Danny Hernandez, Dustin Li, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamilė Lukošiūtė, Karina Nguyen, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Robin Larson, Sam McCandlish, Sandipan Kundu, Saurav Kadavath, Shannon Yang, Thomas Henighan, Timothy Maxwell, Timothy Telleen-Lawton, Tristan Hume, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) obtienen mejores resultados cuando generan un razonamiento paso a paso, conocido como "Cadena de Pensamiento" (CoT, por sus siglas en inglés), antes de responder una pregunta. Sin embargo, no está claro si este razonamiento declarado es una explicación fiel del razonamiento real del modelo (es decir, su proceso para responder la pregunta). Investigamos hipótesis sobre cómo el razonamiento CoT puede no ser fiel, examinando cómo cambian las predicciones del modelo cuando intervenimos en el CoT (por ejemplo, añadiendo errores o parafraseándolo). Los modelos muestran una gran variación entre tareas en cuanto a la medida en que condicionan sus respuestas al CoT, a veces dependiendo fuertemente de él y otras ignorándolo en gran medida. El impulso en el rendimiento del CoT no parece provenir únicamente del cómputo adicional en tiempo de prueba ni de la información codificada a través de la formulación específica del CoT. A medida que los modelos se vuelven más grandes y capaces, generan un razonamiento menos fiel en la mayoría de las tareas que estudiamos. En general, nuestros resultados sugieren que el CoT puede ser fiel si se eligen cuidadosamente circunstancias como el tamaño del modelo y la tarea.
English
Large language models (LLMs) perform better when they produce step-by-step,
"Chain-of-Thought" (CoT) reasoning before answering a question, but it is
unclear if the stated reasoning is a faithful explanation of the model's actual
reasoning (i.e., its process for answering the question). We investigate
hypotheses for how CoT reasoning may be unfaithful, by examining how the model
predictions change when we intervene on the CoT (e.g., by adding mistakes or
paraphrasing it). Models show large variation across tasks in how strongly they
condition on the CoT when predicting their answer, sometimes relying heavily on
the CoT and other times primarily ignoring it. CoT's performance boost does not
seem to come from CoT's added test-time compute alone or from information
encoded via the particular phrasing of the CoT. As models become larger and
more capable, they produce less faithful reasoning on most tasks we study.
Overall, our results suggest that CoT can be faithful if the circumstances such
as the model size and task are carefully chosen.