LLM Zelfcorrectie met DeCRIM: Decompose, Kritiek, en Verfijnen voor Verbeterde Opvolging van Instructies met Meerdere Beperkingen
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints
October 9, 2024
Auteurs: Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin, Haw-Shiuan Chang, Shereen Oraby, Sijia Liu, Vivek Subramanian, Tagyoung Chung, Mohit Bansal, Nanyun Peng
cs.AI
Samenvatting
Het volgen van instructies is een essentiële vaardigheid voor LLM's. Echter, recente studies hebben aangetoond dat LLM's vaak moeite hebben met instructies die meerdere beperkingen bevatten (bijv. een verzoek om een social media bericht "op een grappige toon" te maken "zonder hashtag"). Ondanks dit, richten de meeste evaluaties zich uitsluitend op synthetische data. Om dit aan te pakken, introduceren we RealInstruct, de eerste benchmark ontworpen om de mogelijkheid van LLM's te evalueren om echte multi-beperkte instructies op te volgen door gebruik te maken van vragen die echte gebruikers aan AI-assistenten hebben gesteld. We onderzoeken ook op modellen gebaseerde evaluatie als een kosteneffectief alternatief voor menselijke annotatie voor deze taak. Onze bevindingen tonen aan dat zelfs het gepatenteerde GPT-4 model er niet in slaagt om te voldoen aan minstens één beperking bij meer dan 21% van de instructies, wat de beperkingen van state-of-the-art modellen benadrukt. Om de prestatiekloof tussen open-source en gepatenteerde modellen aan te pakken, stellen we het Decompose, Critique and Refine (DeCRIM) zelfcorrectieproces voor, dat de mogelijkheid van LLM's om beperkingen op te volgen verbetert. DeCRIM werkt door de oorspronkelijke instructie op te splitsen in een lijst van beperkingen en een Critic model te gebruiken om te beslissen wanneer en waar de reactie van de LLM verbetering nodig heeft. Onze resultaten tonen aan dat DeCRIM de prestaties van Mistral verbetert met 7.3% op RealInstruct en 8.0% op IFEval zelfs met zwakke feedback. Bovendien tonen we aan dat met sterke feedback open-source LLM's met DeCRIM GPT-4 kunnen overtreffen op beide benchmarks.
English
Instruction following is a key capability for LLMs. However, recent studies
have shown that LLMs often struggle with instructions containing multiple
constraints (e.g. a request to create a social media post "in a funny tone"
with "no hashtag"). Despite this, most evaluations focus solely on synthetic
data. To address this, we introduce RealInstruct, the first benchmark designed
to evaluate LLMs' ability to follow real-world multi-constrained instructions
by leveraging queries real users asked AI assistants. We also investigate
model-based evaluation as a cost-effective alternative to human annotation for
this task. Our findings reveal that even the proprietary GPT-4 model fails to
meet at least one constraint on over 21% of instructions, highlighting the
limitations of state-of-the-art models. To address the performance gap between
open-source and proprietary models, we propose the Decompose, Critique and
Refine (DeCRIM) self-correction pipeline, which enhances LLMs' ability to
follow constraints. DeCRIM works by decomposing the original instruction into a
list of constraints and using a Critic model to decide when and where the LLM's
response needs refinement. Our results show that DeCRIM improves Mistral's
performance by 7.3% on RealInstruct and 8.0% on IFEval even with weak feedback.
Moreover, we demonstrate that with strong feedback, open-source LLMs with
DeCRIM can outperform GPT-4 on both benchmarks.Summary
AI-Generated Summary