Ragionamento Certificato con Modelli Linguistici
Certified Reasoning with Language Models
June 6, 2023
Autori: Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman
cs.AI
Abstract
I modelli linguistici spesso raggiungono una maggiore accuratezza quando ragionano passo-passo in compiti complessi. Tuttavia, il loro ragionamento può essere insostenibile, incoerente o basarsi su presupposti precedenti indesiderati. Per affrontare questi problemi, introduciamo una classe di strumenti per i modelli linguistici chiamati guide, che utilizzano stato e vincoli incrementali per guidare la generazione. Una guida può essere invocata dal modello per limitare la propria generazione a un insieme di affermazioni valide fornite dallo strumento. A sua volta, le scelte del modello possono modificare lo stato della guida. Mostriamo come un sistema generale per il ragionamento logico possa essere utilizzato come guida, che chiamiamo LogicGuide. Dato un problema di ragionamento in linguaggio naturale, un modello può formalizzare le sue assunzioni per LogicGuide e quindi garantire che i suoi passaggi di ragionamento siano validi. Negli esperimenti con i dataset di ragionamento PrOntoQA e ProofWriter, LogicGuide migliora significativamente le prestazioni di GPT-3, GPT-3.5 Turbo e LLaMA (guadagni di accuratezza fino al 35%). LogicGuide riduce drasticamente anche gli effetti del contenuto: l'interferenza di presupposti precedenti e attuali da cui sia gli esseri umani che i modelli linguistici hanno dimostrato di soffrire. Infine, esploriamo il bootstrap di LLaMA 13B dal proprio ragionamento e scopriamo che LogicGuide è fondamentale: addestrando solo su ragionamenti autogenerati certificati, LLaMA può auto-migliorarsi, evitando di apprendere dalle proprie allucinazioni.
English
Language models often achieve higher accuracy when reasoning step-by-step in
complex tasks. However, their reasoning can be unsound, inconsistent, or rely
on undesirable prior assumptions. To tackle these issues, we introduce a class
of tools for language models called guides that use state and incremental
constraints to guide generation. A guide can be invoked by the model to
constrain its own generation to a set of valid statements given by the tool. In
turn, the model's choices can change the guide's state. We show how a general
system for logical reasoning can be used as a guide, which we call LogicGuide.
Given a reasoning problem in natural language, a model can formalize its
assumptions for LogicGuide and then guarantee that its reasoning steps are
sound. In experiments with the PrOntoQA and ProofWriter reasoning datasets,
LogicGuide significantly improves the performance of GPT-3, GPT-3.5 Turbo and
LLaMA (accuracy gains up to 35%). LogicGuide also drastically reduces content
effects: the interference of prior and current assumptions that both humans and
language models have been shown to suffer from. Finally, we explore
bootstrapping LLaMA 13B from its own reasoning and find that LogicGuide is
critical: by training only on certified self-generated reasoning, LLaMA can
self-improve, avoiding learning from its own hallucinations.