StructFlowBench: Un Benchmark di Flusso Strutturato per il Seguimento di Istruzioni Multi-turn
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following
February 20, 2025
Autori: Jinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu
cs.AI
Abstract
La capacità di seguire istruzioni in contesti multi-turno costituisce una competenza fondamentale dei grandi modelli linguistici (LLMs) nelle applicazioni reali. Gli attuali benchmark di valutazione si concentrano prevalentemente sulla soddisfazione di vincoli dettagliati e sulla valutazione di capacità specifiche per dominio, trascurando tuttavia la cruciale dipendenza strutturale tra i turni di dialogo che distingue le interazioni multi-turno da quelle a turno singolo. Questa dipendenza strutturale non solo riflette l'intento dell'utente, ma stabilisce anche una seconda dimensione per la valutazione del seguire istruzioni, oltre alla soddisfazione dei vincoli. Per colmare questa lacuna, proponiamo StructFlowBench, un benchmark per il seguire istruzioni multi-turno con modellazione del flusso strutturale. Il benchmark definisce in modo innovativo un framework di flusso strutturale composto da sei relazioni fondamentali tra i turni, che non solo introduce nuovi vincoli strutturali per la valutazione dei modelli, ma funge anche da parametro di generazione per creare flussi di dialogo personalizzati adatti a scenari specifici. Adottando metodologie consolidate di valutazione automatica basate su LLM, conduciamo valutazioni sistematiche di 13 tra i principali LLM open-source e closed-source. I risultati sperimentali rivelano significative carenze nella comprensione delle strutture di dialogo multi-turno da parte dei modelli attuali. Il codice è disponibile all'indirizzo https://github.com/MLGroupJLU/StructFlowBench.
English
Multi-turn instruction following capability constitutes a core competency of
large language models (LLMs) in real-world applications. Existing evaluation
benchmarks predominantly focus on fine-grained constraint satisfaction and
domain-specific capability assessment, yet overlook the crucial structural
dependency between dialogue turns that distinguishes multi-turn from
single-turn interactions. This structural dependency not only reflects user
intent but also establishes a second dimension for instruction following
evaluation beyond constraint satisfaction. To address this gap, we propose
StructFlowBench, a multi-turn instruction following benchmark with structural
flow modeling. The benchmark innovatively defines a structural flow framework
comprising six fundamental inter-turn relationships, which not only introduces
novel structural constraints for model evaluation but also serves as generation
parameters for creating customized dialogue flows tailored to specific
scenarios. Adopting established LLM-based automatic evaluation methodologies,
we conduct systematic evaluations of 13 leading open-source and closed-source
LLMs. Experimental results reveal significant deficiencies in current models'
comprehension of multi-turn dialogue structures. The code is available at
https://github.com/MLGroupJLU/StructFlowBench.Summary
AI-Generated Summary