ChatPaper.aiChatPaper

StructFlowBench: Un punto de referencia de flujo estructurado para el seguimiento de instrucciones multi-turn

StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following

February 20, 2025
Autores: Jinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu
cs.AI

Resumen

La capacidad de seguir instrucciones en múltiples turnos constituye una competencia fundamental de los modelos de lenguaje de gran escala (LLMs) en aplicaciones del mundo real. Los puntos de referencia de evaluación existentes se centran principalmente en la satisfacción de restricciones detalladas y la evaluación de capacidades específicas de dominio, pero pasan por alto la crucial dependencia estructural entre los turnos de diálogo que distingue las interacciones de múltiples turnos de las de un solo turno. Esta dependencia estructural no solo refleja la intención del usuario, sino que también establece una segunda dimensión para la evaluación del seguimiento de instrucciones más allá de la satisfacción de restricciones. Para abordar esta brecha, proponemos StructFlowBench, un punto de referencia para el seguimiento de instrucciones en múltiples turnos con modelado de flujo estructural. Este punto de referencia define de manera innovadora un marco de flujo estructural que comprende seis relaciones fundamentales entre turnos, lo que no solo introduce nuevas restricciones estructurales para la evaluación de modelos, sino que también sirve como parámetros de generación para crear flujos de diálogo personalizados adaptados a escenarios específicos. Adoptando metodologías establecidas de evaluación automática basadas en LLMs, realizamos evaluaciones sistemáticas de 13 LLMs líderes, tanto de código abierto como cerrado. Los resultados experimentales revelan deficiencias significativas en la comprensión de las estructuras de diálogo de múltiples turnos por parte de los modelos actuales. El código está disponible en https://github.com/MLGroupJLU/StructFlowBench.
English
Multi-turn instruction following capability constitutes a core competency of large language models (LLMs) in real-world applications. Existing evaluation benchmarks predominantly focus on fine-grained constraint satisfaction and domain-specific capability assessment, yet overlook the crucial structural dependency between dialogue turns that distinguishes multi-turn from single-turn interactions. This structural dependency not only reflects user intent but also establishes a second dimension for instruction following evaluation beyond constraint satisfaction. To address this gap, we propose StructFlowBench, a multi-turn instruction following benchmark with structural flow modeling. The benchmark innovatively defines a structural flow framework comprising six fundamental inter-turn relationships, which not only introduces novel structural constraints for model evaluation but also serves as generation parameters for creating customized dialogue flows tailored to specific scenarios. Adopting established LLM-based automatic evaluation methodologies, we conduct systematic evaluations of 13 leading open-source and closed-source LLMs. Experimental results reveal significant deficiencies in current models' comprehension of multi-turn dialogue structures. The code is available at https://github.com/MLGroupJLU/StructFlowBench.
PDF152February 24, 2025