Сертифицированные рассуждения с использованием языковых моделей
Certified Reasoning with Language Models
June 6, 2023
Авторы: Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman
cs.AI
Аннотация
Языковые модели часто достигают более высокой точности, когда рассуждают пошагово в сложных задачах. Однако их рассуждения могут быть некорректными, противоречивыми или основываться на нежелательных предварительных допущениях. Чтобы решить эти проблемы, мы представляем класс инструментов для языковых моделей, называемых гидами, которые используют состояние и инкрементные ограничения для управления генерацией. Модель может вызывать гид, чтобы ограничить свою генерацию набором допустимых утверждений, предоставляемых инструментом. В свою очередь, выбор модели может изменять состояние гида. Мы показываем, как общая система для логического рассуждения может быть использована в качестве гида, который мы называем LogicGuide. Для задачи рассуждения, сформулированной на естественном языке, модель может формализовать свои допущения для LogicGuide и затем гарантировать, что её шаги рассуждения будут корректными. В экспериментах с наборами данных для рассуждений PrOntoQA и ProofWriter LogicGuide значительно улучшает производительность GPT-3, GPT-3.5 Turbo и LLaMA (увеличение точности до 35%). LogicGuide также резко снижает эффекты контекста: влияние предварительных и текущих допущений, от которых, как было показано, страдают как люди, так и языковые модели. Наконец, мы исследуем самообучение LLaMA 13B на основе собственных рассуждений и обнаруживаем, что LogicGuide играет ключевую роль: обучаясь только на проверенных самостоятельно сгенерированных рассуждениях, LLaMA может самоулучшаться, избегая обучения на собственных галлюцинациях.
English
Language models often achieve higher accuracy when reasoning step-by-step in
complex tasks. However, their reasoning can be unsound, inconsistent, or rely
on undesirable prior assumptions. To tackle these issues, we introduce a class
of tools for language models called guides that use state and incremental
constraints to guide generation. A guide can be invoked by the model to
constrain its own generation to a set of valid statements given by the tool. In
turn, the model's choices can change the guide's state. We show how a general
system for logical reasoning can be used as a guide, which we call LogicGuide.
Given a reasoning problem in natural language, a model can formalize its
assumptions for LogicGuide and then guarantee that its reasoning steps are
sound. In experiments with the PrOntoQA and ProofWriter reasoning datasets,
LogicGuide significantly improves the performance of GPT-3, GPT-3.5 Turbo and
LLaMA (accuracy gains up to 35%). LogicGuide also drastically reduces content
effects: the interference of prior and current assumptions that both humans and
language models have been shown to suffer from. Finally, we explore
bootstrapping LLaMA 13B from its own reasoning and find that LogicGuide is
critical: by training only on certified self-generated reasoning, LLaMA can
self-improve, avoiding learning from its own hallucinations.