ChatPaper.aiChatPaper

SCREWS: Een modulair raamwerk voor redeneren met revisies

SCREWS: A Modular Framework for Reasoning with Revisions

September 20, 2023
Auteurs: Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia
cs.AI

Samenvatting

Grote taalmodellen (LLMs) kunnen hun nauwkeurigheid bij verschillende taken verbeteren door hun uitvoer iteratief te verfijnen en te herzien op basis van feedback. We observeren dat deze herzieningen fouten kunnen introduceren, in welk geval het beter is om terug te vallen op een eerder resultaat. Bovendien zijn herzieningen doorgaans homogeen: ze gebruiken dezelfde redeneermethode die het initiële antwoord produceerde, wat fouten mogelijk niet corrigeert. Om exploratie in dit domein mogelijk te maken, presenteren we SCREWS, een modulair framework voor redeneren met herzieningen. Het bestaat uit drie hoofdmodules: Sampling, Conditioneel Herbemonsteren en Selectie, elk bestaande uit submodules die handmatig kunnen worden geselecteerd per taak. We tonen aan dat SCREWS niet alleen verschillende eerdere benaderingen verenigt onder een gemeenschappelijk framework, maar ook verschillende nieuwe strategieën onthult voor het identificeren van verbeterde redeneerketens. We evalueren ons framework met state-of-the-art LLMs (ChatGPT en GPT-4) op een diverse set van redeneertaken en ontdekken nuttige nieuwe redeneerstrategieën voor elk: rekenkundige woordproblemen, multi-hop vraagbeantwoording en code-debugging. Heterogene herzieningsstrategieën blijken belangrijk te zijn, evenals selectie tussen originele en herziene kandidaten.
English
Large language models (LLMs) can improve their accuracy on various tasks through iteratively refining and revising their output based on feedback. We observe that these revisions can introduce errors, in which case it is better to roll back to a previous result. Further, revisions are typically homogeneous: they use the same reasoning method that produced the initial answer, which may not correct errors. To enable exploration in this space, we present SCREWS, a modular framework for reasoning with revisions. It is comprised of three main modules: Sampling, Conditional Resampling, and Selection, each consisting of sub-modules that can be hand-selected per task. We show that SCREWS not only unifies several previous approaches under a common framework, but also reveals several novel strategies for identifying improved reasoning chains. We evaluate our framework with state-of-the-art LLMs (ChatGPT and GPT-4) on a diverse set of reasoning tasks and uncover useful new reasoning strategies for each: arithmetic word problems, multi-hop question answering, and code debugging. Heterogeneous revision strategies prove to be important, as does selection between original and revised candidates.
PDF172February 8, 2026