StructFlowBench: Бенчмарк структурированного потока для многократного выполнения инструкций
StructFlowBench: A Structured Flow Benchmark for Multi-turn Instruction Following
February 20, 2025
Авторы: Jinnan Li, Jinzhe Li, Yue Wang, Yi Chang, Yuan Wu
cs.AI
Аннотация
Способность следовать многоходовым инструкциям представляет собой ключевую компетенцию больших языковых моделей (LLM) в реальных приложениях. Существующие оценочные тесты в основном сосредоточены на удовлетворении детализированных ограничений и оценке специализированных возможностей, однако упускают из виду важную структурную зависимость между репликами диалога, которая отличает многоходовые взаимодействия от одноходовых. Эта структурная зависимость не только отражает намерения пользователя, но и устанавливает второе измерение для оценки следования инструкциям, выходящее за рамки удовлетворения ограничений. Чтобы устранить этот пробел, мы предлагаем StructFlowBench — тест для оценки способности следовать многоходовым инструкциям с моделированием структурного потока. Этот тест инновационно определяет структурный поток, включающий шесть фундаментальных межрепликовых отношений, которые не только вводят новые структурные ограничения для оценки моделей, но и служат параметрами генерации для создания адаптированных потоков диалога, соответствующих конкретным сценариям. Используя устоявшиеся методологии автоматической оценки на основе LLM, мы проводим систематическую оценку 13 ведущих открытых и закрытых LLM. Результаты экспериментов выявляют значительные недостатки в понимании текущими моделями структур многоходовых диалогов. Код доступен по адресу https://github.com/MLGroupJLU/StructFlowBench.
English
Multi-turn instruction following capability constitutes a core competency of
large language models (LLMs) in real-world applications. Existing evaluation
benchmarks predominantly focus on fine-grained constraint satisfaction and
domain-specific capability assessment, yet overlook the crucial structural
dependency between dialogue turns that distinguishes multi-turn from
single-turn interactions. This structural dependency not only reflects user
intent but also establishes a second dimension for instruction following
evaluation beyond constraint satisfaction. To address this gap, we propose
StructFlowBench, a multi-turn instruction following benchmark with structural
flow modeling. The benchmark innovatively defines a structural flow framework
comprising six fundamental inter-turn relationships, which not only introduces
novel structural constraints for model evaluation but also serves as generation
parameters for creating customized dialogue flows tailored to specific
scenarios. Adopting established LLM-based automatic evaluation methodologies,
we conduct systematic evaluations of 13 leading open-source and closed-source
LLMs. Experimental results reveal significant deficiencies in current models'
comprehension of multi-turn dialogue structures. The code is available at
https://github.com/MLGroupJLU/StructFlowBench.Summary
AI-Generated Summary