ChatPaper.aiChatPaper

SCREWS: Ein modulares Framework für schlussfolgerndes Denken mit Revisionen

SCREWS: A Modular Framework for Reasoning with Revisions

September 20, 2023
Autoren: Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) können ihre Genauigkeit bei verschiedenen Aufgaben verbessern, indem sie ihre Ausgabe iterativ auf der Grundlage von Feedback verfeinern und überarbeiten. Wir beobachten, dass diese Überarbeitungen Fehler einführen können, in welchem Fall es besser ist, zu einem vorherigen Ergebnis zurückzukehren. Darüber hinaus sind Überarbeitungen typischerweise homogen: Sie verwenden dieselbe Argumentationsmethode, die die ursprüngliche Antwort erzeugt hat, was Fehler möglicherweise nicht korrigiert. Um die Exploration in diesem Bereich zu ermöglichen, präsentieren wir SCREWS, ein modulares Framework für das Argumentieren mit Überarbeitungen. Es besteht aus drei Hauptmodulen: Sampling, bedingtes Resampling und Selektion, wobei jedes Modul aus Untermodulen besteht, die pro Aufgabe manuell ausgewählt werden können. Wir zeigen, dass SCREWS nicht nur mehrere bisherige Ansätze unter einem gemeinsamen Framework vereint, sondern auch mehrere neuartige Strategien zur Identifizierung verbesserter Argumentationsketten offenbart. Wir evaluieren unser Framework mit state-of-the-art LLMs (ChatGPT und GPT-4) anhand einer Vielzahl von Argumentationsaufgaben und decken nützliche neue Argumentationsstrategien für jede Aufgabe auf: arithmetische Textaufgaben, mehrstufiges Frage-Antworten und Code-Debugging. Heterogene Überarbeitungsstrategien erweisen sich als wichtig, ebenso wie die Auswahl zwischen ursprünglichen und überarbeiteten Kandidaten.
English
Large language models (LLMs) can improve their accuracy on various tasks through iteratively refining and revising their output based on feedback. We observe that these revisions can introduce errors, in which case it is better to roll back to a previous result. Further, revisions are typically homogeneous: they use the same reasoning method that produced the initial answer, which may not correct errors. To enable exploration in this space, we present SCREWS, a modular framework for reasoning with revisions. It is comprised of three main modules: Sampling, Conditional Resampling, and Selection, each consisting of sub-modules that can be hand-selected per task. We show that SCREWS not only unifies several previous approaches under a common framework, but also reveals several novel strategies for identifying improved reasoning chains. We evaluate our framework with state-of-the-art LLMs (ChatGPT and GPT-4) on a diverse set of reasoning tasks and uncover useful new reasoning strategies for each: arithmetic word problems, multi-hop question answering, and code debugging. Heterogeneous revision strategies prove to be important, as does selection between original and revised candidates.
PDF172December 15, 2024