ChatPaper.aiChatPaper

LongGenBench: Бенчмарк генерации с длинным контекстом

LongGenBench: Long-context Generation Benchmark

October 5, 2024
Авторы: Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu
cs.AI

Аннотация

Текущие бенчмарки с длинным контекстом в основном сосредоточены на тестах на основе извлечения, требуя от моделей с большими языковыми моделями (LLM) находить конкретную информацию в обширных контекстах ввода, таких как бенчмарк "иголка в стоге сена" (NIAH). Генерация длинного контекста относится к способности языковой модели генерировать согласованный и контекстуально точный текст, охватывающий обширные отрывки или документы. Хотя недавние исследования показывают высокую производительность на NIAH и других бенчмарках с длинным контекстом на основе извлечения, существует значительный недостаток бенчмарков для оценки возможностей генерации длинного контекста. Для заполнения этой пробела и предложения всесторонней оценки мы представляем синтетический бенчмарк, LongGenBench, который позволяет гибкие конфигурации настраиваемых длин контекста для генерации. LongGenBench продвигается за пределы традиционных бенчмарков путем переработки формата вопросов и требования от LLM предоставить один цельный ответ с длинным контекстом. После обширной оценки с использованием LongGenBench мы наблюдаем, что: (1) как API-модели, так и модели с открытым исходным кодом демонстрируют деградацию производительности в сценариях генерации длинного контекста, варьирующуюся от 1,2% до 47,1%; (2) различные серии LLM показывают различные тенденции деградации производительности, причем модель Gemini-1.5-Flash демонстрирует наименьшую деградацию среди API-моделей, а серия Qwen2 - наименьшую деградацию в LongGenBench среди моделей с открытым исходным кодом.
English
Current long-context benchmarks primarily focus on retrieval-based tests, requiring Large Language Models (LLMs) to locate specific information within extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark. Long-context generation refers to the ability of a language model to generate coherent and contextually accurate text that spans across lengthy passages or documents. While recent studies show strong performance on NIAH and other retrieval-based long-context benchmarks, there is a significant lack of benchmarks for evaluating long-context generation capabilities. To bridge this gap and offer a comprehensive assessment, we introduce a synthetic benchmark, LongGenBench, which allows for flexible configurations of customized generation context lengths. LongGenBench advances beyond traditional benchmarks by redesigning the format of questions and necessitating that LLMs respond with a single, cohesive long-context answer. Upon extensive evaluation using LongGenBench, we observe that: (1) both API accessed and open source models exhibit performance degradation in long-context generation scenarios, ranging from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of performance degradation, with the Gemini-1.5-Flash model showing the least degradation among API accessed models, and the Qwen2 series exhibiting the least degradation in LongGenBench among open source models.

Summary

AI-Generated Summary

PDF203November 16, 2024