LongGenBench: Banco de Pruebas para Generación de Texto de Largo ContextoLongGenBench: Long-context Generation Benchmark
Los benchmarks actuales de largo contexto se centran principalmente en pruebas basadas en recuperación, que requieren que los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) localicen información específica dentro de contextos de entrada extensos, como el benchmark de aguja en un pajar (NIAH). La generación de largo contexto se refiere a la capacidad de un modelo de lenguaje para generar texto coherente y contextualmente preciso que abarca pasajes extensos o documentos. Aunque estudios recientes muestran un rendimiento sólido en NIAH y otros benchmarks de largo contexto basados en recuperación, existe una falta significativa de benchmarks para evaluar las capacidades de generación de largo contexto. Para cerrar esta brecha y ofrecer una evaluación integral, presentamos un benchmark sintético, LongGenBench, que permite configuraciones flexibles de longitudes de contexto de generación personalizadas. LongGenBench avanza más allá de los benchmarks tradicionales al rediseñar el formato de las preguntas y exigir que los LLMs respondan con una única respuesta cohesiva de largo contexto. Tras una extensa evaluación utilizando LongGenBench, observamos que: (1) tanto los modelos de API como los de código abierto muestran una degradación del rendimiento en escenarios de generación de largo contexto, que varía entre 1.2% y 47.1%; (2) diferentes series de LLMs muestran tendencias variables de degradación del rendimiento, siendo el modelo Gemini-1.5-Flash el que muestra la menor degradación entre los modelos de API, y la serie Qwen2 exhibiendo la menor degradación en LongGenBench entre los modelos de código abierto.