StructFlowBench: Un punto de referencia de flujo estructurado para el seguimiento de instrucciones multi-turn
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following
February 20, 2025
Autores: Jinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu
cs.AI
Resumen
La capacidad de seguir instrucciones en múltiples turnos constituye una competencia fundamental de los modelos de lenguaje de gran escala (LLMs) en aplicaciones del mundo real. Los puntos de referencia de evaluación existentes se centran principalmente en la satisfacción de restricciones detalladas y la evaluación de capacidades específicas de dominio, pero pasan por alto la crucial dependencia estructural entre los turnos de diálogo que distingue las interacciones de múltiples turnos de las de un solo turno. Esta dependencia estructural no solo refleja la intención del usuario, sino que también establece una segunda dimensión para la evaluación del seguimiento de instrucciones más allá de la satisfacción de restricciones. Para abordar esta brecha, proponemos StructFlowBench, un punto de referencia para el seguimiento de instrucciones en múltiples turnos con modelado de flujo estructural. Este punto de referencia define de manera innovadora un marco de flujo estructural que comprende seis relaciones fundamentales entre turnos, lo que no solo introduce nuevas restricciones estructurales para la evaluación de modelos, sino que también sirve como parámetros de generación para crear flujos de diálogo personalizados adaptados a escenarios específicos. Adoptando metodologías establecidas de evaluación automática basadas en LLMs, realizamos evaluaciones sistemáticas de 13 LLMs líderes, tanto de código abierto como cerrado. Los resultados experimentales revelan deficiencias significativas en la comprensión de las estructuras de diálogo de múltiples turnos por parte de los modelos actuales. El código está disponible en https://github.com/MLGroupJLU/StructFlowBench.
English
Multi-turn instruction following capability constitutes a core competency of
large language models (LLMs) in real-world applications. Existing evaluation
benchmarks predominantly focus on fine-grained constraint satisfaction and
domain-specific capability assessment, yet overlook the crucial structural
dependency between dialogue turns that distinguishes multi-turn from
single-turn interactions. This structural dependency not only reflects user
intent but also establishes a second dimension for instruction following
evaluation beyond constraint satisfaction. To address this gap, we propose
StructFlowBench, a multi-turn instruction following benchmark with structural
flow modeling. The benchmark innovatively defines a structural flow framework
comprising six fundamental inter-turn relationships, which not only introduces
novel structural constraints for model evaluation but also serves as generation
parameters for creating customized dialogue flows tailored to specific
scenarios. Adopting established LLM-based automatic evaluation methodologies,
we conduct systematic evaluations of 13 leading open-source and closed-source
LLMs. Experimental results reveal significant deficiencies in current models'
comprehension of multi-turn dialogue structures. The code is available at
https://github.com/MLGroupJLU/StructFlowBench.