StructFlowBench : Un benchmark de flux structuré pour le suivi d'instructions multi-tours

papers.abstract

La capacité à suivre des instructions sur plusieurs tours de dialogue constitue une compétence essentielle des grands modèles de langage (LLMs) dans les applications réelles. Les benchmarks d'évaluation existants se concentrent principalement sur la satisfaction de contraintes fines et l'évaluation des capacités spécifiques à un domaine, mais négligent la dépendance structurelle cruciale entre les tours de dialogue qui distingue les interactions multi-tours des interactions à tour unique. Cette dépendance structurelle reflète non seulement l'intention de l'utilisateur, mais établit également une deuxième dimension pour l'évaluation du suivi des instructions au-delà de la satisfaction des contraintes. Pour combler cette lacune, nous proposons StructFlowBench, un benchmark de suivi d'instructions multi-tours avec modélisation du flux structurel. Le benchmark définit de manière innovante un cadre de flux structurel comprenant six relations fondamentales entre les tours, qui introduit non seulement de nouvelles contraintes structurelles pour l'évaluation des modèles, mais sert également de paramètres de génération pour créer des flux de dialogue personnalisés adaptés à des scénarios spécifiques. En adoptant des méthodologies d'évaluation automatique basées sur les LLMs, nous menons des évaluations systématiques de 13 LLMs open-source et propriétaires leaders. Les résultats expérimentaux révèlent des lacunes significatives dans la compréhension des structures de dialogue multi-tours par les modèles actuels. Le code est disponible à l'adresse https://github.com/MLGroupJLU/StructFlowBench.

English

Multi-turn instruction following capability constitutes a core competency of large language models (LLMs) in real-world applications. Existing evaluation benchmarks predominantly focus on fine-grained constraint satisfaction and domain-specific capability assessment, yet overlook the crucial structural dependency between dialogue turns that distinguishes multi-turn from single-turn interactions. This structural dependency not only reflects user intent but also establishes a second dimension for instruction following evaluation beyond constraint satisfaction. To address this gap, we propose StructFlowBench, a multi-turn instruction following benchmark with structural flow modeling. The benchmark innovatively defines a structural flow framework comprising six fundamental inter-turn relationships, which not only introduces novel structural constraints for model evaluation but also serves as generation parameters for creating customized dialogue flows tailored to specific scenarios. Adopting established LLM-based automatic evaluation methodologies, we conduct systematic evaluations of 13 leading open-source and closed-source LLMs. Experimental results reveal significant deficiencies in current models' comprehension of multi-turn dialogue structures. The code is available at https://github.com/MLGroupJLU/StructFlowBench.

StructFlowBench : Un benchmark de flux structuré pour le suivi d'instructions multi-tours

StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following

papers.abstract

Support