SCREWS: Uma Estrutura Modular para Raciocínio com Revisões
SCREWS: A Modular Framework for Reasoning with Revisions
September 20, 2023
Autores: Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) podem melhorar sua precisão em diversas tarefas ao refinar e revisar iterativamente sua saída com base em feedback. Observamos que essas revisões podem introduzir erros, caso em que é melhor reverter para um resultado anterior. Além disso, as revisões são tipicamente homogêneas: elas utilizam o mesmo método de raciocínio que produziu a resposta inicial, o que pode não corrigir os erros. Para permitir a exploração nesse espaço, apresentamos o SCREWS, um framework modular para raciocínio com revisões. Ele é composto por três módulos principais: Amostragem, Reamostragem Condicional e Seleção, cada um consistindo de submódulos que podem ser escolhidos manualmente por tarefa. Mostramos que o SCREWS não apenas unifica várias abordagens anteriores sob um framework comum, mas também revela várias estratégias novas para identificar cadeias de raciocínio aprimoradas. Avaliamos nosso framework com LLMs de última geração (ChatGPT e GPT-4) em um conjunto diversificado de tarefas de raciocínio e descobrimos estratégias de raciocínio úteis e novas para cada uma: problemas de palavras aritméticas, questionamento de múltiplos saltos e depuração de código. Estratégias de revisão heterogêneas se mostram importantes, assim como a seleção entre candidatos originais e revisados.
English
Large language models (LLMs) can improve their accuracy on various tasks
through iteratively refining and revising their output based on feedback. We
observe that these revisions can introduce errors, in which case it is better
to roll back to a previous result. Further, revisions are typically
homogeneous: they use the same reasoning method that produced the initial
answer, which may not correct errors. To enable exploration in this space, we
present SCREWS, a modular framework for reasoning with revisions. It is
comprised of three main modules: Sampling, Conditional Resampling, and
Selection, each consisting of sub-modules that can be hand-selected per task.
We show that SCREWS not only unifies several previous approaches under a common
framework, but also reveals several novel strategies for identifying improved
reasoning chains. We evaluate our framework with state-of-the-art LLMs (ChatGPT
and GPT-4) on a diverse set of reasoning tasks and uncover useful new reasoning
strategies for each: arithmetic word problems, multi-hop question answering,
and code debugging. Heterogeneous revision strategies prove to be important, as
does selection between original and revised candidates.