LongGenBench: Banco de Pruebas para Generación de Texto de Largo Contexto

Resumen

Los benchmarks actuales de largo contexto se centran principalmente en pruebas basadas en recuperación, que requieren que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) localicen información específica dentro de contextos de entrada extensos, como el benchmark de aguja en un pajar (NIAH). La generación de largo contexto se refiere a la capacidad de un modelo de lenguaje para generar texto coherente y contextualmente preciso que abarca pasajes extensos o documentos. Aunque estudios recientes muestran un rendimiento sólido en NIAH y otros benchmarks de largo contexto basados en recuperación, existe una falta significativa de benchmarks para evaluar las capacidades de generación de largo contexto. Para cerrar esta brecha y ofrecer una evaluación integral, presentamos un benchmark sintético, LongGenBench, que permite configuraciones flexibles de longitudes de contexto de generación personalizadas. LongGenBench avanza más allá de los benchmarks tradicionales al rediseñar el formato de las preguntas y exigir que los LLMs respondan con una única respuesta cohesiva de largo contexto. Tras una extensa evaluación utilizando LongGenBench, observamos que: (1) tanto los modelos de API como los de código abierto muestran una degradación del rendimiento en escenarios de generación de largo contexto, que varía entre 1.2% y 47.1%; (2) diferentes series de LLMs muestran tendencias variables de degradación del rendimiento, siendo el modelo Gemini-1.5-Flash el que muestra la menor degradación entre los modelos de API, y la serie Qwen2 exhibiendo la menor degradación en LongGenBench entre los modelos de código abierto.

English

Current long-context benchmarks primarily focus on retrieval-based tests, requiring Large Language Models (LLMs) to locate specific information within extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark. Long-context generation refers to the ability of a language model to generate coherent and contextually accurate text that spans across lengthy passages or documents. While recent studies show strong performance on NIAH and other retrieval-based long-context benchmarks, there is a significant lack of benchmarks for evaluating long-context generation capabilities. To bridge this gap and offer a comprehensive assessment, we introduce a synthetic benchmark, LongGenBench, which allows for flexible configurations of customized generation context lengths. LongGenBench advances beyond traditional benchmarks by redesigning the format of questions and necessitating that LLMs respond with a single, cohesive long-context answer. Upon extensive evaluation using LongGenBench, we observe that: (1) both API accessed and open source models exhibit performance degradation in long-context generation scenarios, ranging from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of performance degradation, with the Gemini-1.5-Flash model showing the least degradation among API accessed models, and the Qwen2 series exhibiting the least degradation in LongGenBench among open source models.

LongGenBench: Banco de Pruebas para Generación de Texto de Largo Contexto

LongGenBench: Long-context Generation Benchmark

Resumen

Support