LongGenBench: Бенчмарк генерации с длинным контекстомLongGenBench: Long-context Generation Benchmark
Текущие бенчмарки с длинным контекстом в основном сосредоточены на тестах на основе извлечения, требуя от моделей с большими языковыми моделями (LLM) находить конкретную информацию в обширных контекстах ввода, таких как бенчмарк "иголка в стоге сена" (NIAH). Генерация длинного контекста относится к способности языковой модели генерировать согласованный и контекстуально точный текст, охватывающий обширные отрывки или документы. Хотя недавние исследования показывают высокую производительность на NIAH и других бенчмарках с длинным контекстом на основе извлечения, существует значительный недостаток бенчмарков для оценки возможностей генерации длинного контекста. Для заполнения этой пробела и предложения всесторонней оценки мы представляем синтетический бенчмарк, LongGenBench, который позволяет гибкие конфигурации настраиваемых длин контекста для генерации. LongGenBench продвигается за пределы традиционных бенчмарков путем переработки формата вопросов и требования от LLM предоставить один цельный ответ с длинным контекстом. После обширной оценки с использованием LongGenBench мы наблюдаем, что: (1) как API-модели, так и модели с открытым исходным кодом демонстрируют деградацию производительности в сценариях генерации длинного контекста, варьирующуюся от 1,2% до 47,1%; (2) различные серии LLM показывают различные тенденции деградации производительности, причем модель Gemini-1.5-Flash демонстрирует наименьшую деградацию среди API-моделей, а серия Qwen2 - наименьшую деградацию в LongGenBench среди моделей с открытым исходным кодом.