SCREWS : Un cadre modulaire pour le raisonnement avec révisions
SCREWS: A Modular Framework for Reasoning with Revisions
September 20, 2023
Auteurs: Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia
cs.AI
Résumé
Les grands modèles de langage (LLMs) peuvent améliorer leur précision sur diverses tâches en affinant et en révisant itérativement leurs sorties sur la base de retours. Nous observons que ces révisions peuvent introduire des erreurs, auquel cas il est préférable de revenir à un résultat précédent. De plus, les révisions sont généralement homogènes : elles utilisent la même méthode de raisonnement qui a produit la réponse initiale, ce qui peut ne pas corriger les erreurs. Pour permettre l'exploration dans ce domaine, nous présentons SCREWS, un cadre modulaire pour le raisonnement avec révisions. Il est composé de trois modules principaux : Échantillonnage, Rééchantillonnage Conditionnel et Sélection, chacun comprenant des sous-modules qui peuvent être sélectionnés manuellement par tâche. Nous montrons que SCREWS unifie non seulement plusieurs approches précédentes sous un cadre commun, mais révèle également plusieurs stratégies novatrices pour identifier des chaînes de raisonnement améliorées. Nous évaluons notre cadre avec des LLMs de pointe (ChatGPT et GPT-4) sur un ensemble diversifié de tâches de raisonnement et découvrons des stratégies de raisonnement utiles et nouvelles pour chacune : problèmes de mots arithmétiques, questions-réponses multi-sauts et débogage de code. Les stratégies de révision hétérogènes s'avèrent importantes, tout comme la sélection entre les candidats originaux et révisés.
English
Large language models (LLMs) can improve their accuracy on various tasks
through iteratively refining and revising their output based on feedback. We
observe that these revisions can introduce errors, in which case it is better
to roll back to a previous result. Further, revisions are typically
homogeneous: they use the same reasoning method that produced the initial
answer, which may not correct errors. To enable exploration in this space, we
present SCREWS, a modular framework for reasoning with revisions. It is
comprised of three main modules: Sampling, Conditional Resampling, and
Selection, each consisting of sub-modules that can be hand-selected per task.
We show that SCREWS not only unifies several previous approaches under a common
framework, but also reveals several novel strategies for identifying improved
reasoning chains. We evaluate our framework with state-of-the-art LLMs (ChatGPT
and GPT-4) on a diverse set of reasoning tasks and uncover useful new reasoning
strategies for each: arithmetic word problems, multi-hop question answering,
and code debugging. Heterogeneous revision strategies prove to be important, as
does selection between original and revised candidates.