Un Marco de Restricciones Multidimensional para Evaluar y Mejorar el Seguimiento de Instrucciones en Modelos de Lenguaje a Gran Escala
A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models
May 12, 2025
Autores: Junjie Ye, Caishuang Huang, Zhuohan Chen, Wenjie Fu, Chenyuan Yang, Leyi Yang, Yilong Wu, Peng Wang, Meng Zhou, Xiaolong Yang, Tao Gui, Qi Zhang, Zhongchao Shi, Jianping Fan, Xuanjing Huang
cs.AI
Resumen
La evaluación de seguimiento de instrucciones mide la capacidad de los modelos de lenguaje de gran escala (LLMs) para generar salidas que se ajusten a restricciones definidas por el usuario. Sin embargo, los puntos de referencia existentes suelen basarse en indicaciones de restricciones predefinidas, las cuales carecen de la diversidad del uso en el mundo real y limitan la evaluación detallada del rendimiento. Para abordar esta limitación, proponemos un marco de restricciones multidimensional que abarca tres patrones de restricciones, cuatro categorías de restricciones y cuatro niveles de dificultad. Basándonos en este marco, desarrollamos una canalización automatizada de generación de instrucciones que realiza expansión de restricciones, detección de conflictos y reescritura de instrucciones, produciendo 1,200 muestras de prueba verificables mediante código para el seguimiento de instrucciones. Evaluamos 19 LLMs de siete familias de modelos y descubrimos una variación sustancial en el rendimiento según las formas de restricción. Por ejemplo, el rendimiento promedio disminuye del 77.67% en el Nivel I al 32.96% en el Nivel IV. Además, demostramos la utilidad de nuestro enfoque utilizándolo para generar datos en el aprendizaje por refuerzo, logrando mejoras significativas en el seguimiento de instrucciones sin degradar el rendimiento general. Un análisis en profundidad indica que estas mejoras se deben principalmente a modificaciones en los parámetros de los módulos de atención del modelo, lo que mejora el reconocimiento y la adherencia a las restricciones. El código y los datos están disponibles en https://github.com/Junjie-Ye/MulDimIF.
English
Instruction following evaluates large language models (LLMs) on their ability
to generate outputs that adhere to user-defined constraints. However, existing
benchmarks often rely on templated constraint prompts, which lack the diversity
of real-world usage and limit fine-grained performance assessment. To fill this
gap, we propose a multi-dimensional constraint framework encompassing three
constraint patterns, four constraint categories, and four difficulty levels.
Building on this framework, we develop an automated instruction generation
pipeline that performs constraint expansion, conflict detection, and
instruction rewriting, yielding 1,200 code-verifiable instruction-following
test samples. We evaluate 19 LLMs across seven model families and uncover
substantial variation in performance across constraint forms. For instance,
average performance drops from 77.67% at Level I to 32.96% at Level IV.
Furthermore, we demonstrate the utility of our approach by using it to generate
data for reinforcement learning, achieving substantial gains in instruction
following without degrading general performance. In-depth analysis indicates
that these gains stem primarily from modifications in the model's attention
modules parameters, which enhance constraint recognition and adherence. Code
and data are available in https://github.com/Junjie-Ye/MulDimIF.Summary
AI-Generated Summary