ChatPaper.aiChatPaper

LLM Selbstkorrektur mit DeCRIM: Zerlegen, Kritisieren und Verfeinern zur Verbesserung der Befolgung von Anweisungen mit mehreren Einschränkungen

LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints

October 9, 2024
Autoren: Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin, Haw-Shiuan Chang, Shereen Oraby, Sijia Liu, Vivek Subramanian, Tagyoung Chung, Mohit Bansal, Nanyun Peng
cs.AI

Zusammenfassung

Die Befolgung von Anweisungen ist eine entscheidende Fähigkeit für LLMs. Allerdings haben jüngste Studien gezeigt, dass LLMs oft Schwierigkeiten mit Anweisungen haben, die mehrere Einschränkungen enthalten (z. B. die Aufforderung, einen Social-Media-Beitrag "in lustigem Ton" und "ohne Hashtag" zu erstellen). Trotzdem konzentrieren sich die meisten Bewertungen ausschließlich auf synthetische Daten. Um dies zu adressieren, führen wir RealInstruct ein, den ersten Benchmark, der entwickelt wurde, um die Fähigkeit von LLMs zu bewerten, realen multi-eingeschränkten Anweisungen zu folgen, indem Anfragen genutzt werden, die echte Benutzer an KI-Assistenten gestellt haben. Wir untersuchen auch die modellbasierte Bewertung als kostengünstige Alternative zur menschlichen Annotation für diese Aufgabe. Unsere Ergebnisse zeigen, dass selbst das proprietäre GPT-4-Modell bei über 21% der Anweisungen mindestens eine Einschränkung nicht erfüllt, was die Grenzen der modernsten Modelle verdeutlicht. Um die Leistungslücke zwischen Open-Source- und proprietären Modellen zu überbrücken, schlagen wir die Decompose, Critique and Refine (DeCRIM) Selbstkorrektur-Pipeline vor, die die Fähigkeit von LLMs verbessert, Einschränkungen zu befolgen. DeCRIM funktioniert, indem die ursprüngliche Anweisung in eine Liste von Einschränkungen zerlegt wird und ein Kritikmodell entscheidet, wann und wo die Antwort des LLMs verbessert werden muss. Unsere Ergebnisse zeigen, dass DeCRIM die Leistung von Mistral um 7,3% bei RealInstruct und 8,0% bei IFEval verbessert, selbst bei schwachem Feedback. Darüber hinaus zeigen wir, dass Open-Source-LLMs mit DeCRIM bei starkem Feedback GPT-4 auf beiden Benchmarks übertreffen können.
English
Instruction following is a key capability for LLMs. However, recent studies have shown that LLMs often struggle with instructions containing multiple constraints (e.g. a request to create a social media post "in a funny tone" with "no hashtag"). Despite this, most evaluations focus solely on synthetic data. To address this, we introduce RealInstruct, the first benchmark designed to evaluate LLMs' ability to follow real-world multi-constrained instructions by leveraging queries real users asked AI assistants. We also investigate model-based evaluation as a cost-effective alternative to human annotation for this task. Our findings reveal that even the proprietary GPT-4 model fails to meet at least one constraint on over 21% of instructions, highlighting the limitations of state-of-the-art models. To address the performance gap between open-source and proprietary models, we propose the Decompose, Critique and Refine (DeCRIM) self-correction pipeline, which enhances LLMs' ability to follow constraints. DeCRIM works by decomposing the original instruction into a list of constraints and using a Critic model to decide when and where the LLM's response needs refinement. Our results show that DeCRIM improves Mistral's performance by 7.3% on RealInstruct and 8.0% on IFEval even with weak feedback. Moreover, we demonstrate that with strong feedback, open-source LLMs with DeCRIM can outperform GPT-4 on both benchmarks.

Summary

AI-Generated Summary

PDF82November 16, 2024