Самокоррекция LLM с помощью DeCRIM: Декомпозиция, Критика и Усовершенствование для Улучшенного Следования Инструкциям с Множественными Ограничениями
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints
October 9, 2024
Авторы: Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin, Haw-Shiuan Chang, Shereen Oraby, Sijia Liu, Vivek Subramanian, Tagyoung Chung, Mohit Bansal, Nanyun Peng
cs.AI
Аннотация
Следование инструкциям является ключевой способностью для LLMs. Однако недавние исследования показали, что LLMs часто испытывают затруднения с инструкциями, содержащими несколько ограничений (например, запрос на создание сообщения в социальных сетях "веселого тоном" без хэштега). Несмотря на это, большинство оценок сосредоточены исключительно на синтетических данных. Для решения этой проблемы мы представляем RealInstruct, первый бенчмарк, разработанный для оценки способности LLMs следовать реальным многоусловным инструкциям, используя запросы, которые реальные пользователи задавали искусственным интеллектуальным помощникам. Мы также исследуем модельную оценку как экономически эффективную альтернативу аннотации людей для этой задачи. Наши результаты показывают, что даже частная модель GPT-4 не соблюдает как минимум одно ограничение в более чем 21% инструкций, подчеркивая ограничения современных моделей. Для устранения разрыва в производительности между открытыми и частными моделями мы предлагаем пайплайн самокоррекции Decompose, Critique and Refine (DeCRIM), который улучшает способность LLMs следовать ограничениям. DeCRIM работает путем декомпозиции исходной инструкции на список ограничений и использования модели Critic для принятия решения о том, когда и где ответ LLM требует улучшения. Наши результаты показывают, что DeCRIM улучшает производительность Mistral на 7.3% на RealInstruct и на 8.0% на IFEval даже с недостаточной обратной связью. Более того, мы демонстрируем, что с сильной обратной связью открытые LLMs с DeCRIM могут превзойти GPT-4 на обоих бенчмарках.
English
Instruction following is a key capability for LLMs. However, recent studies
have shown that LLMs often struggle with instructions containing multiple
constraints (e.g. a request to create a social media post "in a funny tone"
with "no hashtag"). Despite this, most evaluations focus solely on synthetic
data. To address this, we introduce RealInstruct, the first benchmark designed
to evaluate LLMs' ability to follow real-world multi-constrained instructions
by leveraging queries real users asked AI assistants. We also investigate
model-based evaluation as a cost-effective alternative to human annotation for
this task. Our findings reveal that even the proprietary GPT-4 model fails to
meet at least one constraint on over 21% of instructions, highlighting the
limitations of state-of-the-art models. To address the performance gap between
open-source and proprietary models, we propose the Decompose, Critique and
Refine (DeCRIM) self-correction pipeline, which enhances LLMs' ability to
follow constraints. DeCRIM works by decomposing the original instruction into a
list of constraints and using a Critic model to decide when and where the LLM's
response needs refinement. Our results show that DeCRIM improves Mistral's
performance by 7.3% on RealInstruct and 8.0% on IFEval even with weak feedback.
Moreover, we demonstrate that with strong feedback, open-source LLMs with
DeCRIM can outperform GPT-4 on both benchmarks.Summary
AI-Generated Summary