Corrección automática de LLM con DeCRIM: Descomponer, Criticar y Refinar para una Mejora en el Seguimiento de Instrucciones con Múltiples Restricciones.

Resumen

La capacidad de seguir instrucciones es una habilidad clave para los LLMs. Sin embargo, estudios recientes han demostrado que los LLMs a menudo tienen dificultades con instrucciones que contienen múltiples restricciones (por ejemplo, una solicitud para crear una publicación en redes sociales "con un tono divertido" sin "ningún hashtag"). A pesar de esto, la mayoría de las evaluaciones se centran únicamente en datos sintéticos. Para abordar esto, presentamos RealInstruct, el primer conjunto de pruebas diseñado para evaluar la capacidad de los LLMs para seguir instrucciones del mundo real con múltiples restricciones, aprovechando las consultas que los usuarios reales hicieron a los asistentes de IA. También investigamos la evaluación basada en modelos como una alternativa rentable a la anotación humana para esta tarea. Nuestros hallazgos revelan que incluso el modelo GPT-4 propietario no logra cumplir al menos una restricción en más del 21% de las instrucciones, resaltando las limitaciones de los modelos de vanguardia. Para abordar la brecha de rendimiento entre los modelos de código abierto y los propietarios, proponemos el pipeline de autocorrección Decompose, Critique and Refine (DeCRIM), que mejora la capacidad de los LLMs para seguir restricciones. DeCRIM funciona descomponiendo la instrucción original en una lista de restricciones y utilizando un modelo Crítico para decidir cuándo y dónde la respuesta del LLM necesita ser refinada. Nuestros resultados muestran que DeCRIM mejora el rendimiento de Mistral en un 7.3% en RealInstruct y un 8.0% en IFEval incluso con retroalimentación débil. Además, demostramos que con retroalimentación fuerte, los LLMs de código abierto con DeCRIM pueden superar a GPT-4 en ambos conjuntos de pruebas.

English

Instruction following is a key capability for LLMs. However, recent studies have shown that LLMs often struggle with instructions containing multiple constraints (e.g. a request to create a social media post "in a funny tone" with "no hashtag"). Despite this, most evaluations focus solely on synthetic data. To address this, we introduce RealInstruct, the first benchmark designed to evaluate LLMs' ability to follow real-world multi-constrained instructions by leveraging queries real users asked AI assistants. We also investigate model-based evaluation as a cost-effective alternative to human annotation for this task. Our findings reveal that even the proprietary GPT-4 model fails to meet at least one constraint on over 21% of instructions, highlighting the limitations of state-of-the-art models. To address the performance gap between open-source and proprietary models, we propose the Decompose, Critique and Refine (DeCRIM) self-correction pipeline, which enhances LLMs' ability to follow constraints. DeCRIM works by decomposing the original instruction into a list of constraints and using a Critic model to decide when and where the LLM's response needs refinement. Our results show that DeCRIM improves Mistral's performance by 7.3% on RealInstruct and 8.0% on IFEval even with weak feedback. Moreover, we demonstrate that with strong feedback, open-source LLMs with DeCRIM can outperform GPT-4 on both benchmarks.

Corrección automática de LLM con DeCRIM: Descomponer, Criticar y Refinar para una Mejora en el Seguimiento de Instrucciones con Múltiples Restricciones.

LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints

Resumen

Support