Correction automatique LLM avec DeCRIM : Décomposer, Critiquer et Affiner pour un Suivi Amélioré des Instructions avec Multiples Contraintes
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints
October 9, 2024
Auteurs: Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin, Haw-Shiuan Chang, Shereen Oraby, Sijia Liu, Vivek Subramanian, Tagyoung Chung, Mohit Bansal, Nanyun Peng
cs.AI
Résumé
La capacité à suivre des instructions est une compétence clé pour les LLM. Cependant, des études récentes ont montré que les LLM ont souvent du mal avec des instructions contenant plusieurs contraintes (par exemple, une demande de créer une publication sur les réseaux sociaux "avec un ton humoristique" sans "aucun hashtag"). Malgré cela, la plupart des évaluations se concentrent uniquement sur des données synthétiques. Pour remédier à cela, nous introduisons RealInstruct, le premier banc d'essai conçu pour évaluer la capacité des LLM à suivre des instructions du monde réel multi-contraintes en exploitant les requêtes posées par de vrais utilisateurs aux assistants IA. Nous étudions également l'évaluation basée sur le modèle en tant qu'alternative rentable à l'annotation humaine pour cette tâche. Nos résultats révèlent que même le modèle GPT-4 propriétaire ne parvient pas à respecter au moins une contrainte pour plus de 21% des instructions, mettant en évidence les limites des modèles de pointe. Pour combler l'écart de performance entre les modèles open-source et propriétaires, nous proposons le pipeline d'auto-correction Décomposer, Critiquer et Affiner (DeCRIM), qui améliore la capacité des LLM à suivre les contraintes. DeCRIM fonctionne en décomposant l'instruction d'origine en une liste de contraintes et en utilisant un modèle Critique pour décider quand et où la réponse du LLM nécessite un affinement. Nos résultats montrent que DeCRIM améliore les performances de Mistral de 7,3% sur RealInstruct et de 8,0% sur IFEval même avec un faible retour d'information. De plus, nous démontrons qu'avec un retour d'information fort, les LLM open-source avec DeCRIM peuvent surpasser GPT-4 sur les deux bancs d'essai.
English
Instruction following is a key capability for LLMs. However, recent studies
have shown that LLMs often struggle with instructions containing multiple
constraints (e.g. a request to create a social media post "in a funny tone"
with "no hashtag"). Despite this, most evaluations focus solely on synthetic
data. To address this, we introduce RealInstruct, the first benchmark designed
to evaluate LLMs' ability to follow real-world multi-constrained instructions
by leveraging queries real users asked AI assistants. We also investigate
model-based evaluation as a cost-effective alternative to human annotation for
this task. Our findings reveal that even the proprietary GPT-4 model fails to
meet at least one constraint on over 21% of instructions, highlighting the
limitations of state-of-the-art models. To address the performance gap between
open-source and proprietary models, we propose the Decompose, Critique and
Refine (DeCRIM) self-correction pipeline, which enhances LLMs' ability to
follow constraints. DeCRIM works by decomposing the original instruction into a
list of constraints and using a Critic model to decide when and where the LLM's
response needs refinement. Our results show that DeCRIM improves Mistral's
performance by 7.3% on RealInstruct and 8.0% on IFEval even with weak feedback.
Moreover, we demonstrate that with strong feedback, open-source LLMs with
DeCRIM can outperform GPT-4 on both benchmarks.Summary
AI-Generated Summary