Измерение достоверности в цепочке рассуждений (Chain-of-Thought Reasoning)
Measuring Faithfulness in Chain-of-Thought Reasoning
July 17, 2023
Авторы: Tamera Lanham, Anna Chen, Ansh Radhakrishnan, Benoit Steiner, Carson Denison, Danny Hernandez, Dustin Li, Esin Durmus, Evan Hubinger, Jackson Kernion, Kamilė Lukošiūtė, Karina Nguyen, Newton Cheng, Nicholas Joseph, Nicholas Schiefer, Oliver Rausch, Robin Larson, Sam McCandlish, Sandipan Kundu, Saurav Kadavath, Shannon Yang, Thomas Henighan, Timothy Maxwell, Timothy Telleen-Lawton, Tristan Hume, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner, Samuel R. Bowman, Ethan Perez
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют лучшие результаты, когда они генерируют пошаговые рассуждения в стиле "Цепочка мыслей" (Chain-of-Thought, CoT) перед ответом на вопрос. Однако неясно, являются ли эти рассуждения точным отражением реального процесса, используемого моделью для формирования ответа. Мы исследуем гипотезы о том, почему рассуждения CoT могут быть недостоверными, анализируя, как изменяются предсказания модели при вмешательстве в CoT (например, добавлении ошибок или перефразировании). Модели демонстрируют значительные различия в зависимости от задачи в том, насколько сильно они учитывают CoT при формировании ответа: иногда они сильно полагаются на CoT, а в других случаях в основном игнорируют его. Улучшение производительности CoT, по-видимому, не связано исключительно с дополнительными вычислительными ресурсами во время тестирования или с информацией, закодированной в конкретной формулировке CoT. По мере увеличения размера и способностей моделей они генерируют менее достоверные рассуждения в большинстве исследуемых задач. В целом, наши результаты показывают, что CoT может быть достоверным, если тщательно подобраны такие условия, как размер модели и задача.
English
Large language models (LLMs) perform better when they produce step-by-step,
"Chain-of-Thought" (CoT) reasoning before answering a question, but it is
unclear if the stated reasoning is a faithful explanation of the model's actual
reasoning (i.e., its process for answering the question). We investigate
hypotheses for how CoT reasoning may be unfaithful, by examining how the model
predictions change when we intervene on the CoT (e.g., by adding mistakes or
paraphrasing it). Models show large variation across tasks in how strongly they
condition on the CoT when predicting their answer, sometimes relying heavily on
the CoT and other times primarily ignoring it. CoT's performance boost does not
seem to come from CoT's added test-time compute alone or from information
encoded via the particular phrasing of the CoT. As models become larger and
more capable, they produce less faithful reasoning on most tasks we study.
Overall, our results suggest that CoT can be faithful if the circumstances such
as the model size and task are carefully chosen.