StructFlowBench: Ein strukturierter Flow-Benchmark für Multi-Turn-Anweisungsfolgen
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following
February 20, 2025
Autoren: Jinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu
cs.AI
Zusammenfassung
Die Fähigkeit zur Befolgung von Mehrfachanweisungen stellt eine Kernkompetenz großer Sprachmodelle (LLMs) in realen Anwendungen dar. Bestehende Evaluierungsbenchmarks konzentrieren sich hauptsächlich auf die feinkörnige Erfüllung von Einschränkungen und die Bewertung domänenspezifischer Fähigkeiten, vernachlässigen jedoch die entscheidende strukturelle Abhängigkeit zwischen Dialogrunden, die Mehrfachinteraktionen von Einzelinteraktionen unterscheidet. Diese strukturelle Abhängigkeit spiegelt nicht nur die Benutzerabsicht wider, sondern etabliert auch eine zweite Dimension für die Bewertung der Befolgung von Anweisungen, die über die bloße Erfüllung von Einschränkungen hinausgeht. Um diese Lücke zu schließen, schlagen wir StructFlowBench vor, einen Benchmark für die Befolgung von Mehrfachanweisungen mit Modellierung des strukturellen Flusses. Der Benchmark definiert innovativ ein strukturelles Flussrahmenwerk, das sechs grundlegende interturn-Beziehungen umfasst, was nicht nur neue strukturelle Einschränkungen für die Modellbewertung einführt, sondern auch als Generierungsparameter für die Erstellung maßgeschneiderter Dialogflüsse dient, die auf spezifische Szenarien zugeschnitten sind. Unter Verwendung etablierter LLM-basierter automatischer Evaluierungsmethoden führen wir systematische Bewertungen von 13 führenden Open-Source- und Closed-Source-LLMs durch. Die experimentellen Ergebnisse zeigen erhebliche Defizite im Verständnis aktueller Modelle für die Strukturen von Mehrfachdialogen auf. Der Code ist verfügbar unter https://github.com/MLGroupJLU/StructFlowBench.
English
Multi-turn instruction following capability constitutes a core competency of
large language models (LLMs) in real-world applications. Existing evaluation
benchmarks predominantly focus on fine-grained constraint satisfaction and
domain-specific capability assessment, yet overlook the crucial structural
dependency between dialogue turns that distinguishes multi-turn from
single-turn interactions. This structural dependency not only reflects user
intent but also establishes a second dimension for instruction following
evaluation beyond constraint satisfaction. To address this gap, we propose
StructFlowBench, a multi-turn instruction following benchmark with structural
flow modeling. The benchmark innovatively defines a structural flow framework
comprising six fundamental inter-turn relationships, which not only introduces
novel structural constraints for model evaluation but also serves as generation
parameters for creating customized dialogue flows tailored to specific
scenarios. Adopting established LLM-based automatic evaluation methodologies,
we conduct systematic evaluations of 13 leading open-source and closed-source
LLMs. Experimental results reveal significant deficiencies in current models'
comprehension of multi-turn dialogue structures. The code is available at
https://github.com/MLGroupJLU/StructFlowBench.Summary
AI-Generated Summary