ChatPaper.aiChatPaper

SCREWS: Un Marco Modular para el Razonamiento con Revisiones

SCREWS: A Modular Framework for Reasoning with Revisions

September 20, 2023
Autores: Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) pueden mejorar su precisión en diversas tareas mediante la refinación y revisión iterativa de su salida basada en retroalimentación. Observamos que estas revisiones pueden introducir errores, en cuyo caso es preferible revertir a un resultado anterior. Además, las revisiones suelen ser homogéneas: utilizan el mismo método de razonamiento que produjo la respuesta inicial, lo que puede no corregir los errores. Para facilitar la exploración en este ámbito, presentamos SCREWS, un marco modular para razonar con revisiones. Está compuesto por tres módulos principales: Muestreo, Remuestreo Condicional y Selección, cada uno con submódulos que pueden seleccionarse manualmente según la tarea. Demostramos que SCREWS no solo unifica varios enfoques previos bajo un marco común, sino que también revela varias estrategias novedosas para identificar cadenas de razonamiento mejoradas. Evaluamos nuestro marco con LLMs de última generación (ChatGPT y GPT-4) en un conjunto diverso de tareas de razonamiento y descubrimos estrategias de razonamiento útiles y nuevas para cada una: problemas aritméticos de palabras, respuestas a preguntas de múltiples saltos y depuración de código. Las estrategias de revisión heterogéneas resultan ser importantes, al igual que la selección entre candidatos originales y revisados.
English
Large language models (LLMs) can improve their accuracy on various tasks through iteratively refining and revising their output based on feedback. We observe that these revisions can introduce errors, in which case it is better to roll back to a previous result. Further, revisions are typically homogeneous: they use the same reasoning method that produced the initial answer, which may not correct errors. To enable exploration in this space, we present SCREWS, a modular framework for reasoning with revisions. It is comprised of three main modules: Sampling, Conditional Resampling, and Selection, each consisting of sub-modules that can be hand-selected per task. We show that SCREWS not only unifies several previous approaches under a common framework, but also reveals several novel strategies for identifying improved reasoning chains. We evaluate our framework with state-of-the-art LLMs (ChatGPT and GPT-4) on a diverse set of reasoning tasks and uncover useful new reasoning strategies for each: arithmetic word problems, multi-hop question answering, and code debugging. Heterogeneous revision strategies prove to be important, as does selection between original and revised candidates.
PDF172December 15, 2024