El Benchmark SIFo: Investigación de la Capacidad de Seguimiento Secuencial de Instrucciones en Modelos de Lenguaje de Gran Escala
The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models
June 28, 2024
Autores: Xinyi Chen, Baohao Liao, Jirui Qi, Panagiotis Eustratiadis, Christof Monz, Arianna Bisazza, Maarten de Rijke
cs.AI
Resumen
Seguir múltiples instrucciones es una habilidad crucial para los modelos de lenguaje de gran escala (LLMs). Evaluar esta capacidad conlleva desafíos significativos: (i) coherencia limitada entre múltiples instrucciones, (ii) sesgo posicional donde el orden de las instrucciones afecta el rendimiento del modelo, y (iii) falta de tareas objetivamente verificables. Para abordar estos problemas, presentamos un benchmark diseñado para evaluar la capacidad de los modelos para seguir múltiples instrucciones a través de tareas de seguimiento secuencial de instrucciones (SIFo). En SIFo, la finalización exitosa de múltiples instrucciones es verificable examinando solo la instrucción final. Nuestro benchmark evalúa el seguimiento de instrucciones utilizando cuatro tareas (modificación de texto, respuesta a preguntas, matemáticas y seguimiento de reglas de seguridad), cada una evaluando diferentes aspectos del seguimiento secuencial de instrucciones. Nuestra evaluación de LLMs populares, tanto de código cerrado como abierto, muestra que los modelos más recientes y de mayor tamaño superan significativamente a sus contrapartes más antiguas y pequeñas en las tareas SIFo, validando la efectividad del benchmark. Todos los modelos tienen dificultades para seguir secuencias de instrucciones, lo que sugiere una importante falta de robustez en los modelos de lenguaje actuales.
English
Following multiple instructions is a crucial ability for large language
models (LLMs). Evaluating this ability comes with significant challenges: (i)
limited coherence between multiple instructions, (ii) positional bias where the
order of instructions affects model performance, and (iii) a lack of
objectively verifiable tasks. To address these issues, we introduce a benchmark
designed to evaluate models' abilities to follow multiple instructions through
sequential instruction following (SIFo) tasks. In SIFo, the successful
completion of multiple instructions is verifiable by examining only the final
instruction. Our benchmark evaluates instruction following using four tasks
(text modification, question answering, mathematics, and security rule
following), each assessing different aspects of sequential instruction
following. Our evaluation of popular LLMs, both closed-source and open-source,
shows that more recent and larger models significantly outperform their older
and smaller counterparts on the SIFo tasks, validating the benchmark's
effectiveness. All models struggle with following sequences of instructions,
hinting at an important lack of robustness of today's language models.Summary
AI-Generated Summary