ChatPaper.aiChatPaper

SCREWS: Модульная платформа для рассуждений с учетом исправлений

SCREWS: A Modular Framework for Reasoning with Revisions

September 20, 2023
Авторы: Kumar Shridhar, Harsh Jhamtani, Hao Fang, Benjamin Van Durme, Jason Eisner, Patrick Xia
cs.AI

Аннотация

Крупные языковые модели (LLM) могут повышать свою точность в различных задачах за счет итеративного уточнения и пересмотра своих результатов на основе обратной связи. Мы наблюдаем, что такие пересмотры могут приводить к ошибкам, и в таких случаях лучше вернуться к предыдущему результату. Кроме того, пересмотры обычно однородны: они используют тот же метод рассуждений, который привел к первоначальному ответу, что может не исправлять ошибки. Для исследования в этой области мы представляем SCREWS — модульную структуру для рассуждений с пересмотрами. Она состоит из трех основных модулей: выборка, условная повторная выборка и отбор, каждый из которых включает подмодули, которые можно выбирать вручную для каждой задачи. Мы показываем, что SCREWS не только объединяет несколько предыдущих подходов в рамках общей структуры, но и раскрывает несколько новых стратегий для выявления улучшенных цепочек рассуждений. Мы оцениваем нашу структуру с использованием современных LLM (ChatGPT и GPT-4) на разнообразных задачах рассуждений и обнаруживаем полезные новые стратегии для каждой из них: арифметические текстовые задачи, многошаговые вопросы с ответами и отладка кода. Гетерогенные стратегии пересмотра оказываются важными, как и выбор между оригинальными и пересмотренными кандидатами.
English
Large language models (LLMs) can improve their accuracy on various tasks through iteratively refining and revising their output based on feedback. We observe that these revisions can introduce errors, in which case it is better to roll back to a previous result. Further, revisions are typically homogeneous: they use the same reasoning method that produced the initial answer, which may not correct errors. To enable exploration in this space, we present SCREWS, a modular framework for reasoning with revisions. It is comprised of three main modules: Sampling, Conditional Resampling, and Selection, each consisting of sub-modules that can be hand-selected per task. We show that SCREWS not only unifies several previous approaches under a common framework, but also reveals several novel strategies for identifying improved reasoning chains. We evaluate our framework with state-of-the-art LLMs (ChatGPT and GPT-4) on a diverse set of reasoning tasks and uncover useful new reasoning strategies for each: arithmetic word problems, multi-hop question answering, and code debugging. Heterogeneous revision strategies prove to be important, as does selection between original and revised candidates.
PDF172December 15, 2024