StructFlowBench : Un benchmark de flux structuré pour le suivi d'instructions multi-tours
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following
February 20, 2025
Auteurs: Jinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu
cs.AI
Résumé
La capacité à suivre des instructions sur plusieurs tours de dialogue constitue une compétence essentielle des grands modèles de langage (LLMs) dans les applications réelles. Les benchmarks d'évaluation existants se concentrent principalement sur la satisfaction de contraintes fines et l'évaluation des capacités spécifiques à un domaine, mais négligent la dépendance structurelle cruciale entre les tours de dialogue qui distingue les interactions multi-tours des interactions à tour unique. Cette dépendance structurelle reflète non seulement l'intention de l'utilisateur, mais établit également une deuxième dimension pour l'évaluation du suivi des instructions au-delà de la satisfaction des contraintes. Pour combler cette lacune, nous proposons StructFlowBench, un benchmark de suivi d'instructions multi-tours avec modélisation du flux structurel. Le benchmark définit de manière innovante un cadre de flux structurel comprenant six relations fondamentales entre les tours, qui introduit non seulement de nouvelles contraintes structurelles pour l'évaluation des modèles, mais sert également de paramètres de génération pour créer des flux de dialogue personnalisés adaptés à des scénarios spécifiques. En adoptant des méthodologies d'évaluation automatique basées sur les LLMs, nous menons des évaluations systématiques de 13 LLMs open-source et propriétaires leaders. Les résultats expérimentaux révèlent des lacunes significatives dans la compréhension des structures de dialogue multi-tours par les modèles actuels. Le code est disponible à l'adresse https://github.com/MLGroupJLU/StructFlowBench.
English
Multi-turn instruction following capability constitutes a core competency of
large language models (LLMs) in real-world applications. Existing evaluation
benchmarks predominantly focus on fine-grained constraint satisfaction and
domain-specific capability assessment, yet overlook the crucial structural
dependency between dialogue turns that distinguishes multi-turn from
single-turn interactions. This structural dependency not only reflects user
intent but also establishes a second dimension for instruction following
evaluation beyond constraint satisfaction. To address this gap, we propose
StructFlowBench, a multi-turn instruction following benchmark with structural
flow modeling. The benchmark innovatively defines a structural flow framework
comprising six fundamental inter-turn relationships, which not only introduces
novel structural constraints for model evaluation but also serves as generation
parameters for creating customized dialogue flows tailored to specific
scenarios. Adopting established LLM-based automatic evaluation methodologies,
we conduct systematic evaluations of 13 leading open-source and closed-source
LLMs. Experimental results reveal significant deficiencies in current models'
comprehension of multi-turn dialogue structures. The code is available at
https://github.com/MLGroupJLU/StructFlowBench.Summary
AI-Generated Summary