ChatPaper.aiChatPaper

Искусство улучшения больших языковых моделей: Спрашивай, Уточняй и Доверяй

The ART of LLM Refinement: Ask, Refine, and Trust

November 14, 2023
Авторы: Kumar Shridhar, Koustuv Sinha, Andrew Cohen, Tianlu Wang, Ping Yu, Ram Pasunuru, Mrinmaya Sachan, Jason Weston, Asli Celikyilmaz
cs.AI

Аннотация

В последние годы крупные языковые модели (LLM) продемонстрировали впечатляющие способности к генерации текста, но могут ли они оценивать качество своих собственных результатов? Популярная концепция, известная как самоусовершенствование, предполагает, что LLM способны обнаруживать и исправлять ошибки в своих результатах, если их об этом попросить. Однако недавние эмпирические данные указывают на обратное, свидетельствуя о том, что LLM часто испытывают трудности с точным выявлением ошибок, когда требуется логическое рассуждение. Для решения этой проблемы мы предлагаем подход к рассуждению с усовершенствованием под названием ART: Ask, Refine, and Trust (Спроси, Усовершенствуй, Доверься), который задает необходимые вопросы для определения, когда LLM следует усовершенствовать свой вывод, и либо подтверждает, либо удерживает доверие к этому усовершенствованию, ранжируя его и первоначальный прогноз. На двух задачах многошагового рассуждения — математических текстовых задачах (GSM8K) и ответах на вопросы (StrategyQA) — ART достигает улучшения производительности на +5 баллов по сравнению с базовыми методами самоусовершенствования, при этом используя значительно меньшую модель в качестве принимающего решения компонента. Мы также демонстрируем преимущество использования меньших моделей для принятия решений об усовершенствовании как экономически эффективной альтернативы тонкой настройке более крупной модели.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable generative abilities, but can they judge the quality of their own generations? A popular concept, referred to as self-refinement, postulates that LLMs can detect and correct the errors in their generations when asked to do so. However, recent empirical evidence points in the opposite direction, suggesting that LLMs often struggle to accurately identify errors when reasoning is involved. To address this, we propose a reasoning with refinement objective called ART: Ask, Refine, and Trust, which asks necessary questions to decide when an LLM should refine its output, and either affirm or withhold trust in its refinement by ranking the refinement and the initial prediction. On two multistep reasoning tasks of mathematical word problems (GSM8K) and question answering (StrategyQA), ART achieves a performance gain of +5 points over self-refinement baselines, while using a much smaller model as the decision maker. We also demonstrate the benefit of using smaller models to make refinement decisions as a cost-effective alternative to fine-tuning a larger model.
PDF110December 15, 2024