StructFlowBench: Um Benchmark de Fluxo Estruturado para Seguimento de Instruções em Múltiplos Turnos
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following
February 20, 2025
Autores: Jinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu
cs.AI
Resumo
A capacidade de seguir instruções em múltiplos turnos constitui uma competência central dos grandes modelos de linguagem (LLMs) em aplicações do mundo real. Os benchmarks de avaliação existentes concentram-se predominantemente na satisfação de restrições detalhadas e na avaliação de capacidades específicas de domínio, mas negligenciam a crucial dependência estrutural entre os turnos do diálogo que distingue as interações de múltiplos turnos das de turno único. Essa dependência estrutural não apenas reflete a intenção do usuário, mas também estabelece uma segunda dimensão para a avaliação do seguimento de instruções, além da satisfação de restrições. Para abordar essa lacuna, propomos o StructFlowBench, um benchmark de seguimento de instruções em múltiplos turnos com modelagem de fluxo estrutural. O benchmark define de forma inovadora um framework de fluxo estrutural composto por seis relações fundamentais entre turnos, que não apenas introduzem novas restrições estruturais para a avaliação de modelos, mas também servem como parâmetros de geração para criar fluxos de diálogo personalizados adaptados a cenários específicos. Adotando metodologias estabelecidas de avaliação automática baseada em LLMs, realizamos avaliações sistemáticas de 13 LLMs líderes, tanto de código aberto quanto proprietários. Os resultados experimentais revelam deficiências significativas na compreensão das estruturas de diálogo de múltiplos turnos pelos modelos atuais. O código está disponível em https://github.com/MLGroupJLU/StructFlowBench.
English
Multi-turn instruction following capability constitutes a core competency of
large language models (LLMs) in real-world applications. Existing evaluation
benchmarks predominantly focus on fine-grained constraint satisfaction and
domain-specific capability assessment, yet overlook the crucial structural
dependency between dialogue turns that distinguishes multi-turn from
single-turn interactions. This structural dependency not only reflects user
intent but also establishes a second dimension for instruction following
evaluation beyond constraint satisfaction. To address this gap, we propose
StructFlowBench, a multi-turn instruction following benchmark with structural
flow modeling. The benchmark innovatively defines a structural flow framework
comprising six fundamental inter-turn relationships, which not only introduces
novel structural constraints for model evaluation but also serves as generation
parameters for creating customized dialogue flows tailored to specific
scenarios. Adopting established LLM-based automatic evaluation methodologies,
we conduct systematic evaluations of 13 leading open-source and closed-source
LLMs. Experimental results reveal significant deficiencies in current models'
comprehension of multi-turn dialogue structures. The code is available at
https://github.com/MLGroupJLU/StructFlowBench.Summary
AI-Generated Summary