SCREWS: Un Framework Modulare per il Ragionamento con Revisioni
SCREWS: A Modular Framework for Reasoning with Revisions
September 20, 2023
Autori: Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) possono migliorare la loro accuratezza su vari compiti attraverso il raffinamento e la revisione iterativa del loro output basata su feedback. Osserviamo che queste revisioni possono introdurre errori, nel qual caso è preferibile tornare a un risultato precedente. Inoltre, le revisioni sono tipicamente omogenee: utilizzano lo stesso metodo di ragionamento che ha prodotto la risposta iniziale, il quale potrebbe non correggere gli errori. Per favorire l'esplorazione in questo ambito, presentiamo SCREWS, un framework modulare per il ragionamento con revisioni. Esso è composto da tre moduli principali: Campionamento, Ricampionamento Condizionale e Selezione, ciascuno costituito da sotto-moduli che possono essere selezionati manualmente in base al compito. Dimostriamo che SCREWS non solo unifica diversi approcci precedenti sotto un framework comune, ma rivela anche diverse nuove strategie per identificare catene di ragionamento migliorate. Valutiamo il nostro framework con LLM all'avanguardia (ChatGPT e GPT-4) su un insieme diversificato di compiti di ragionamento e scopriamo utili nuove strategie di ragionamento per ciascuno: problemi di aritmetica verbale, risposte a domande multi-hop e debug del codice. Le strategie di revisione eterogenee si rivelano importanti, così come la selezione tra candidati originali e revisionati.
English
Large language models (LLMs) can improve their accuracy on various tasks
through iteratively refining and revising their output based on feedback. We
observe that these revisions can introduce errors, in which case it is better
to roll back to a previous result. Further, revisions are typically
homogeneous: they use the same reasoning method that produced the initial
answer, which may not correct errors. To enable exploration in this space, we
present SCREWS, a modular framework for reasoning with revisions. It is
comprised of three main modules: Sampling, Conditional Resampling, and
Selection, each consisting of sub-modules that can be hand-selected per task.
We show that SCREWS not only unifies several previous approaches under a common
framework, but also reveals several novel strategies for identifying improved
reasoning chains. We evaluate our framework with state-of-the-art LLMs (ChatGPT
and GPT-4) on a diverse set of reasoning tasks and uncover useful new reasoning
strategies for each: arithmetic word problems, multi-hop question answering,
and code debugging. Heterogeneous revision strategies prove to be important, as
does selection between original and revised candidates.