StructFlowBench: Un Benchmark di Flusso Strutturato per il Seguimento di Istruzioni Multi-turn

Abstract

La capacità di seguire istruzioni in contesti multi-turno costituisce una competenza fondamentale dei grandi modelli linguistici (LLMs) nelle applicazioni reali. Gli attuali benchmark di valutazione si concentrano prevalentemente sulla soddisfazione di vincoli dettagliati e sulla valutazione di capacità specifiche per dominio, trascurando tuttavia la cruciale dipendenza strutturale tra i turni di dialogo che distingue le interazioni multi-turno da quelle a turno singolo. Questa dipendenza strutturale non solo riflette l'intento dell'utente, ma stabilisce anche una seconda dimensione per la valutazione del seguire istruzioni, oltre alla soddisfazione dei vincoli. Per colmare questa lacuna, proponiamo StructFlowBench, un benchmark per il seguire istruzioni multi-turno con modellazione del flusso strutturale. Il benchmark definisce in modo innovativo un framework di flusso strutturale composto da sei relazioni fondamentali tra i turni, che non solo introduce nuovi vincoli strutturali per la valutazione dei modelli, ma funge anche da parametro di generazione per creare flussi di dialogo personalizzati adatti a scenari specifici. Adottando metodologie consolidate di valutazione automatica basate su LLM, conduciamo valutazioni sistematiche di 13 tra i principali LLM open-source e closed-source. I risultati sperimentali rivelano significative carenze nella comprensione delle strutture di dialogo multi-turno da parte dei modelli attuali. Il codice è disponibile all'indirizzo https://github.com/MLGroupJLU/StructFlowBench.

English

Multi-turn instruction following capability constitutes a core competency of large language models (LLMs) in real-world applications. Existing evaluation benchmarks predominantly focus on fine-grained constraint satisfaction and domain-specific capability assessment, yet overlook the crucial structural dependency between dialogue turns that distinguishes multi-turn from single-turn interactions. This structural dependency not only reflects user intent but also establishes a second dimension for instruction following evaluation beyond constraint satisfaction. To address this gap, we propose StructFlowBench, a multi-turn instruction following benchmark with structural flow modeling. The benchmark innovatively defines a structural flow framework comprising six fundamental inter-turn relationships, which not only introduces novel structural constraints for model evaluation but also serves as generation parameters for creating customized dialogue flows tailored to specific scenarios. Adopting established LLM-based automatic evaluation methodologies, we conduct systematic evaluations of 13 leading open-source and closed-source LLMs. Experimental results reveal significant deficiencies in current models' comprehension of multi-turn dialogue structures. The code is available at https://github.com/MLGroupJLU/StructFlowBench.

StructFlowBench: Un Benchmark di Flusso Strutturato per il Seguimento di Istruzioni Multi-turn

StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following

Abstract

Support