Razonamiento Certificado con Modelos de Lenguaje
Certified Reasoning with Language Models
June 6, 2023
Autores: Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman
cs.AI
Resumen
Los modelos de lenguaje suelen alcanzar mayor precisión cuando razonan paso a paso en tareas complejas. Sin embargo, su razonamiento puede ser incorrecto, inconsistente o depender de suposiciones previas no deseables. Para abordar estos problemas, introducimos una clase de herramientas para modelos de lenguaje llamadas guías, que utilizan estado y restricciones incrementales para guiar la generación. Una guía puede ser invocada por el modelo para restringir su propia generación a un conjunto de enunciados válidos proporcionados por la herramienta. A su vez, las decisiones del modelo pueden alterar el estado de la guía. Mostramos cómo un sistema general para razonamiento lógico puede usarse como guía, al que llamamos LogicGuide. Dado un problema de razonamiento en lenguaje natural, un modelo puede formalizar sus suposiciones para LogicGuide y luego garantizar que sus pasos de razonamiento sean correctos. En experimentos con los conjuntos de datos de razonamiento PrOntoQA y ProofWriter, LogicGuide mejora significativamente el rendimiento de GPT-3, GPT-3.5 Turbo y LLaMA (ganancias de precisión de hasta 35%). LogicGuide también reduce drásticamente los efectos de contenido: la interferencia de suposiciones previas y actuales de la que tanto humanos como modelos de lenguaje han demostrado sufrir. Finalmente, exploramos el autoaprendizaje de LLaMA 13B a partir de su propio razonamiento y encontramos que LogicGuide es crucial: al entrenarse únicamente con razonamientos autogenerados certificados, LLaMA puede mejorarse a sí mismo, evitando aprender de sus propias alucinaciones.
English
Language models often achieve higher accuracy when reasoning step-by-step in
complex tasks. However, their reasoning can be unsound, inconsistent, or rely
on undesirable prior assumptions. To tackle these issues, we introduce a class
of tools for language models called guides that use state and incremental
constraints to guide generation. A guide can be invoked by the model to
constrain its own generation to a set of valid statements given by the tool. In
turn, the model's choices can change the guide's state. We show how a general
system for logical reasoning can be used as a guide, which we call LogicGuide.
Given a reasoning problem in natural language, a model can formalize its
assumptions for LogicGuide and then guarantee that its reasoning steps are
sound. In experiments with the PrOntoQA and ProofWriter reasoning datasets,
LogicGuide significantly improves the performance of GPT-3, GPT-3.5 Turbo and
LLaMA (accuracy gains up to 35%). LogicGuide also drastically reduces content
effects: the interference of prior and current assumptions that both humans and
language models have been shown to suffer from. Finally, we explore
bootstrapping LLaMA 13B from its own reasoning and find that LogicGuide is
critical: by training only on certified self-generated reasoning, LLaMA can
self-improve, avoiding learning from its own hallucinations.