SelfCheck: Использование языковых моделей для самопроверки пошаговых рассуждений без обучения
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning
August 1, 2023
Авторы: Ning Miao, Yee Whye Teh, Tom Rainforth
cs.AI
Аннотация
Недавние достижения в области больших языковых моделей (LLM), особенно изобретение метода цепочки рассуждений (CoT), сделали возможным решение задач, требующих логического мышления. Однако даже самые мощные LLM по-прежнему испытывают трудности с более сложными проблемами, которые требуют нелинейного мышления и многошаговых рассуждений. В данной работе мы исследуем, способны ли LLM распознавать собственные ошибки без привлечения внешних ресурсов. В частности, мы изучаем, можно ли их использовать для выявления отдельных ошибок в пошаговых рассуждениях. Для этого мы предлагаем схему проверки без предварительного обучения (zero-shot verification), предназначенную для распознавания таких ошибок. Затем мы используем эту схему для улучшения производительности в задачах вопросов и ответов, применяя её для взвешенного голосования между различными сгенерированными ответами. Мы тестируем метод на трёх математических наборах данных — GSM8K, MathQA и MATH — и обнаруживаем, что он успешно распознаёт ошибки и, как следствие, повышает итоговую точность предсказаний.
English
The recent progress in large language models (LLMs), especially the invention
of chain-of-thoughts (CoT) prompting, makes it possible to solve reasoning
problems. However, even the strongest LLMs are still struggling with more
complicated problems that require non-linear thinking and multi-step reasoning.
In this work, we explore whether LLMs have the ability to recognize their own
errors, without resorting to external resources. In particular, we investigate
whether they can be used to identify individual errors within a step-by-step
reasoning. To this end, we propose a zero-shot verification scheme to recognize
such errors. We then use this verification scheme to improve question-answering
performance, by using it to perform weighted voting on different generated
answers. We test the method on three math datasets-GSM8K, MathQA, and MATH-and
find that it successfully recognizes errors and, in turn, increases final
predictive performance.