StructFlowBench: Ein strukturierter Flow-Benchmark für Multi-Turn-Anweisungsfolgen

papers.abstract

Die Fähigkeit zur Befolgung von Mehrfachanweisungen stellt eine Kernkompetenz großer Sprachmodelle (LLMs) in realen Anwendungen dar. Bestehende Evaluierungsbenchmarks konzentrieren sich hauptsächlich auf die feinkörnige Erfüllung von Einschränkungen und die Bewertung domänenspezifischer Fähigkeiten, vernachlässigen jedoch die entscheidende strukturelle Abhängigkeit zwischen Dialogrunden, die Mehrfachinteraktionen von Einzelinteraktionen unterscheidet. Diese strukturelle Abhängigkeit spiegelt nicht nur die Benutzerabsicht wider, sondern etabliert auch eine zweite Dimension für die Bewertung der Befolgung von Anweisungen, die über die bloße Erfüllung von Einschränkungen hinausgeht. Um diese Lücke zu schließen, schlagen wir StructFlowBench vor, einen Benchmark für die Befolgung von Mehrfachanweisungen mit Modellierung des strukturellen Flusses. Der Benchmark definiert innovativ ein strukturelles Flussrahmenwerk, das sechs grundlegende interturn-Beziehungen umfasst, was nicht nur neue strukturelle Einschränkungen für die Modellbewertung einführt, sondern auch als Generierungsparameter für die Erstellung maßgeschneiderter Dialogflüsse dient, die auf spezifische Szenarien zugeschnitten sind. Unter Verwendung etablierter LLM-basierter automatischer Evaluierungsmethoden führen wir systematische Bewertungen von 13 führenden Open-Source- und Closed-Source-LLMs durch. Die experimentellen Ergebnisse zeigen erhebliche Defizite im Verständnis aktueller Modelle für die Strukturen von Mehrfachdialogen auf. Der Code ist verfügbar unter https://github.com/MLGroupJLU/StructFlowBench.

English

Multi-turn instruction following capability constitutes a core competency of large language models (LLMs) in real-world applications. Existing evaluation benchmarks predominantly focus on fine-grained constraint satisfaction and domain-specific capability assessment, yet overlook the crucial structural dependency between dialogue turns that distinguishes multi-turn from single-turn interactions. This structural dependency not only reflects user intent but also establishes a second dimension for instruction following evaluation beyond constraint satisfaction. To address this gap, we propose StructFlowBench, a multi-turn instruction following benchmark with structural flow modeling. The benchmark innovatively defines a structural flow framework comprising six fundamental inter-turn relationships, which not only introduces novel structural constraints for model evaluation but also serves as generation parameters for creating customized dialogue flows tailored to specific scenarios. Adopting established LLM-based automatic evaluation methodologies, we conduct systematic evaluations of 13 leading open-source and closed-source LLMs. Experimental results reveal significant deficiencies in current models' comprehension of multi-turn dialogue structures. The code is available at https://github.com/MLGroupJLU/StructFlowBench.

StructFlowBench: Ein strukturierter Flow-Benchmark für Multi-Turn-Anweisungsfolgen

StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following

papers.abstract

Support