Auto-Correção LLM com DeCRIM: Decompor, Criticar e Refinar para Melhorar o Seguimento de Instruções com Múltiplas Restrições
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints
October 9, 2024
Autores: Thomas Palmeira Ferraz, Kartik Mehta, Yu-Hsiang Lin, Haw-Shiuan Chang, Shereen Oraby, Sijia Liu, Vivek Subramanian, Tagyoung Chung, Mohit Bansal, Nanyun Peng
cs.AI
Resumo
A capacidade de seguir instruções é uma habilidade fundamental para LLMs. No entanto, estudos recentes têm mostrado que LLMs frequentemente enfrentam dificuldades com instruções que contêm múltiplos requisitos (por exemplo, um pedido para criar uma postagem em redes sociais "com um tom engraçado" sem "nenhum hashtag"). Apesar disso, a maioria das avaliações se concentra exclusivamente em dados sintéticos. Para lidar com isso, apresentamos o RealInstruct, o primeiro benchmark projetado para avaliar a capacidade dos LLMs de seguir instruções do mundo real com múltiplos requisitos, utilizando consultas que usuários reais fizeram a assistentes de IA. Também investigamos a avaliação baseada em modelo como uma alternativa economicamente viável à anotação humana para essa tarefa. Nossas descobertas revelam que até mesmo o modelo proprietário GPT-4 falha em atender pelo menos um requisito em mais de 21% das instruções, destacando as limitações dos modelos de ponta. Para abordar a diferença de desempenho entre modelos de código aberto e proprietários, propomos o pipeline de auto correção Decompose, Critique and Refine (DeCRIM), que aprimora a capacidade dos LLMs de seguir requisitos. O DeCRIM funciona decompondo a instrução original em uma lista de requisitos e utilizando um modelo Crítico para decidir quando e onde a resposta do LLM precisa de refinamento. Nossos resultados mostram que o DeCRIM melhora o desempenho do Mistral em 7,3% no RealInstruct e 8,0% no IFEval mesmo com feedback fraco. Além disso, demonstramos que com feedback forte, LLMs de código aberto com DeCRIM podem superar o GPT-4 em ambos os benchmarks.
English
Instruction following is a key capability for LLMs. However, recent studies
have shown that LLMs often struggle with instructions containing multiple
constraints (e.g. a request to create a social media post "in a funny tone"
with "no hashtag"). Despite this, most evaluations focus solely on synthetic
data. To address this, we introduce RealInstruct, the first benchmark designed
to evaluate LLMs' ability to follow real-world multi-constrained instructions
by leveraging queries real users asked AI assistants. We also investigate
model-based evaluation as a cost-effective alternative to human annotation for
this task. Our findings reveal that even the proprietary GPT-4 model fails to
meet at least one constraint on over 21% of instructions, highlighting the
limitations of state-of-the-art models. To address the performance gap between
open-source and proprietary models, we propose the Decompose, Critique and
Refine (DeCRIM) self-correction pipeline, which enhances LLMs' ability to
follow constraints. DeCRIM works by decomposing the original instruction into a
list of constraints and using a Critic model to decide when and where the LLM's
response needs refinement. Our results show that DeCRIM improves Mistral's
performance by 7.3% on RealInstruct and 8.0% on IFEval even with weak feedback.
Moreover, we demonstrate that with strong feedback, open-source LLMs with
DeCRIM can outperform GPT-4 on both benchmarks.Summary
AI-Generated Summary