SCREWS: Un Marco Modular para el Razonamiento con Revisiones
SCREWS: A Modular Framework for Reasoning with Revisions
September 20, 2023
Autores: Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) pueden mejorar su precisión en diversas tareas mediante la refinación y revisión iterativa de su salida basada en retroalimentación. Observamos que estas revisiones pueden introducir errores, en cuyo caso es preferible revertir a un resultado anterior. Además, las revisiones suelen ser homogéneas: utilizan el mismo método de razonamiento que produjo la respuesta inicial, lo que puede no corregir los errores. Para facilitar la exploración en este ámbito, presentamos SCREWS, un marco modular para razonar con revisiones. Está compuesto por tres módulos principales: Muestreo, Remuestreo Condicional y Selección, cada uno con submódulos que pueden seleccionarse manualmente según la tarea. Demostramos que SCREWS no solo unifica varios enfoques previos bajo un marco común, sino que también revela varias estrategias novedosas para identificar cadenas de razonamiento mejoradas. Evaluamos nuestro marco con LLMs de última generación (ChatGPT y GPT-4) en un conjunto diverso de tareas de razonamiento y descubrimos estrategias de razonamiento útiles y nuevas para cada una: problemas aritméticos de palabras, respuestas a preguntas de múltiples saltos y depuración de código. Las estrategias de revisión heterogéneas resultan ser importantes, al igual que la selección entre candidatos originales y revisados.
English
Large language models (LLMs) can improve their accuracy on various tasks
through iteratively refining and revising their output based on feedback. We
observe that these revisions can introduce errors, in which case it is better
to roll back to a previous result. Further, revisions are typically
homogeneous: they use the same reasoning method that produced the initial
answer, which may not correct errors. To enable exploration in this space, we
present SCREWS, a modular framework for reasoning with revisions. It is
comprised of three main modules: Sampling, Conditional Resampling, and
Selection, each consisting of sub-modules that can be hand-selected per task.
We show that SCREWS not only unifies several previous approaches under a common
framework, but also reveals several novel strategies for identifying improved
reasoning chains. We evaluate our framework with state-of-the-art LLMs (ChatGPT
and GPT-4) on a diverse set of reasoning tasks and uncover useful new reasoning
strategies for each: arithmetic word problems, multi-hop question answering,
and code debugging. Heterogeneous revision strategies prove to be important, as
does selection between original and revised candidates.