StructFlowBench: Um Benchmark de Fluxo Estruturado para Seguimento de Instruções em Múltiplos Turnos

Resumo

A capacidade de seguir instruções em múltiplos turnos constitui uma competência central dos grandes modelos de linguagem (LLMs) em aplicações do mundo real. Os benchmarks de avaliação existentes concentram-se predominantemente na satisfação de restrições detalhadas e na avaliação de capacidades específicas de domínio, mas negligenciam a crucial dependência estrutural entre os turnos do diálogo que distingue as interações de múltiplos turnos das de turno único. Essa dependência estrutural não apenas reflete a intenção do usuário, mas também estabelece uma segunda dimensão para a avaliação do seguimento de instruções, além da satisfação de restrições. Para abordar essa lacuna, propomos o StructFlowBench, um benchmark de seguimento de instruções em múltiplos turnos com modelagem de fluxo estrutural. O benchmark define de forma inovadora um framework de fluxo estrutural composto por seis relações fundamentais entre turnos, que não apenas introduzem novas restrições estruturais para a avaliação de modelos, mas também servem como parâmetros de geração para criar fluxos de diálogo personalizados adaptados a cenários específicos. Adotando metodologias estabelecidas de avaliação automática baseada em LLMs, realizamos avaliações sistemáticas de 13 LLMs líderes, tanto de código aberto quanto proprietários. Os resultados experimentais revelam deficiências significativas na compreensão das estruturas de diálogo de múltiplos turnos pelos modelos atuais. O código está disponível em https://github.com/MLGroupJLU/StructFlowBench.

English

Multi-turn instruction following capability constitutes a core competency of large language models (LLMs) in real-world applications. Existing evaluation benchmarks predominantly focus on fine-grained constraint satisfaction and domain-specific capability assessment, yet overlook the crucial structural dependency between dialogue turns that distinguishes multi-turn from single-turn interactions. This structural dependency not only reflects user intent but also establishes a second dimension for instruction following evaluation beyond constraint satisfaction. To address this gap, we propose StructFlowBench, a multi-turn instruction following benchmark with structural flow modeling. The benchmark innovatively defines a structural flow framework comprising six fundamental inter-turn relationships, which not only introduces novel structural constraints for model evaluation but also serves as generation parameters for creating customized dialogue flows tailored to specific scenarios. Adopting established LLM-based automatic evaluation methodologies, we conduct systematic evaluations of 13 leading open-source and closed-source LLMs. Experimental results reveal significant deficiencies in current models' comprehension of multi-turn dialogue structures. The code is available at https://github.com/MLGroupJLU/StructFlowBench.

StructFlowBench: Um Benchmark de Fluxo Estruturado para Seguimento de Instruções em Múltiplos Turnos

StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following

Resumo

Support