LongGenBench: Banco de Pruebas para Generación de Texto de Largo Contexto
LongGenBench: Long-context Generation Benchmark
October 5, 2024
Autores: Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu
cs.AI
Resumen
Los benchmarks actuales de largo contexto se centran principalmente en pruebas basadas en recuperación, que requieren que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) localicen información específica dentro de contextos de entrada extensos, como el benchmark de aguja en un pajar (NIAH). La generación de largo contexto se refiere a la capacidad de un modelo de lenguaje para generar texto coherente y contextualmente preciso que abarca pasajes extensos o documentos. Aunque estudios recientes muestran un rendimiento sólido en NIAH y otros benchmarks de largo contexto basados en recuperación, existe una falta significativa de benchmarks para evaluar las capacidades de generación de largo contexto. Para cerrar esta brecha y ofrecer una evaluación integral, presentamos un benchmark sintético, LongGenBench, que permite configuraciones flexibles de longitudes de contexto de generación personalizadas. LongGenBench avanza más allá de los benchmarks tradicionales al rediseñar el formato de las preguntas y exigir que los LLMs respondan con una única respuesta cohesiva de largo contexto. Tras una extensa evaluación utilizando LongGenBench, observamos que: (1) tanto los modelos de API como los de código abierto muestran una degradación del rendimiento en escenarios de generación de largo contexto, que varía entre 1.2% y 47.1%; (2) diferentes series de LLMs muestran tendencias variables de degradación del rendimiento, siendo el modelo Gemini-1.5-Flash el que muestra la menor degradación entre los modelos de API, y la serie Qwen2 exhibiendo la menor degradación en LongGenBench entre los modelos de código abierto.
English
Current long-context benchmarks primarily focus on retrieval-based tests,
requiring Large Language Models (LLMs) to locate specific information within
extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark.
Long-context generation refers to the ability of a language model to generate
coherent and contextually accurate text that spans across lengthy passages or
documents. While recent studies show strong performance on NIAH and other
retrieval-based long-context benchmarks, there is a significant lack of
benchmarks for evaluating long-context generation capabilities. To bridge this
gap and offer a comprehensive assessment, we introduce a synthetic benchmark,
LongGenBench, which allows for flexible configurations of customized generation
context lengths. LongGenBench advances beyond traditional benchmarks by
redesigning the format of questions and necessitating that LLMs respond with a
single, cohesive long-context answer. Upon extensive evaluation using
LongGenBench, we observe that: (1) both API accessed and open source models
exhibit performance degradation in long-context generation scenarios, ranging
from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of
performance degradation, with the Gemini-1.5-Flash model showing the least
degradation among API accessed models, and the Qwen2 series exhibiting the
least degradation in LongGenBench among open source models.Summary
AI-Generated Summary