LLMの自己修正におけるDeCRIM:複数の制約に従った指示の強化のための分解、批評、および改良
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints
October 9, 2024
著者: Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin, Haw-Shiuan Chang, Shereen Oraby, Sijia Liu, Vivek Subramanian, Tagyoung Chung, Mohit Bansal, Nanyun Peng
cs.AI
要旨
LLMにとって、指示に従うことは重要な能力です。しかし、最近の研究によると、LLMはしばしば複数の制約を含む指示(例:「面白いトーンでソーシャルメディア投稿を作成する」と「ハッシュタグなし」など)に苦労することが示されています。それにもかかわらず、ほとんどの評価は合成データに焦点を当てています。この問題に対処するために、私たちはRealInstructを導入します。これは、AIアシスタントにユーザーが尋ねたクエリを活用して、実世界の複数制約を持つ指示に従うLLMの能力を評価するために設計された初のベンチマークです。また、このタスクにおいて人間の注釈の費用効果的な代替手段として、モデルベースの評価を調査しています。私たちの調査結果によると、プロプライエタリなGPT-4モデルでさえ、指示の21%以上で少なくとも1つの制約を満たすことができないことが明らかになり、最先端のモデルの限界が浮き彫りにされています。オープンソースとプロプライエタリモデルの性能差を解消するために、私たちはDecompose、Critic、Refine(DeCRIM)自己修正パイプラインを提案しています。これにより、元の指示を制約のリストに分解し、Criticモデルを使用して、LLMの応答がどこでどのように改善が必要かを決定します。私たちの結果は、DeCRIMがMistralのRealInstructで7.3%、IFEvalで8.0%の性能向上をもたらし、弱いフィードバックでも成果を挙げることを示しています。さらに、強力なフィードバックを用いると、DeCRIMを備えたオープンソースのLLMが両方のベンチマークでGPT-4を上回ることを実証しています。
English
Instruction following is a key capability for LLMs. However, recent studies
have shown that LLMs often struggle with instructions containing multiple
constraints (e.g. a request to create a social media post "in a funny tone"
with "no hashtag"). Despite this, most evaluations focus solely on synthetic
data. To address this, we introduce RealInstruct, the first benchmark designed
to evaluate LLMs' ability to follow real-world multi-constrained instructions
by leveraging queries real users asked AI assistants. We also investigate
model-based evaluation as a cost-effective alternative to human annotation for
this task. Our findings reveal that even the proprietary GPT-4 model fails to
meet at least one constraint on over 21% of instructions, highlighting the
limitations of state-of-the-art models. To address the performance gap between
open-source and proprietary models, we propose the Decompose, Critique and
Refine (DeCRIM) self-correction pipeline, which enhances LLMs' ability to
follow constraints. DeCRIM works by decomposing the original instruction into a
list of constraints and using a Critic model to decide when and where the LLM's
response needs refinement. Our results show that DeCRIM improves Mistral's
performance by 7.3% on RealInstruct and 8.0% on IFEval even with weak feedback.
Moreover, we demonstrate that with strong feedback, open-source LLMs with
DeCRIM can outperform GPT-4 on both benchmarks.Summary
AI-Generated Summary