LongGenBench: Benchmark de Geração de Contexto Longo
LongGenBench: Long-context Generation Benchmark
October 5, 2024
Autores: Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu
cs.AI
Resumo
As avaliações atuais de benchmarks de longo contexto focam principalmente em testes baseados em recuperação, exigindo que Modelos de Linguagem de Grande Escala (LLMs) localizem informações específicas dentro de contextos extensos de entrada, como o benchmark agulha-no-palheiro (NIAH). A geração de longo contexto refere-se à capacidade de um modelo de linguagem gerar texto coerente e contextualmente preciso que abrange passagens ou documentos extensos. Embora estudos recentes demonstrem um desempenho forte no NIAH e em outros benchmarks de longo contexto baseados em recuperação, há uma falta significativa de benchmarks para avaliar as capacidades de geração de longo contexto. Para preencher essa lacuna e oferecer uma avaliação abrangente, introduzimos um benchmark sintético, LongGenBench, que permite configurações flexíveis de comprimentos de contexto de geração personalizados. O LongGenBench avança além dos benchmarks tradicionais ao redesenhar o formato das perguntas e exigir que os LLMs respondam com uma única resposta longa e coesa de contexto. Após uma extensa avaliação usando o LongGenBench, observamos que: (1) tanto os modelos acessados por API quanto os de código aberto exibem degradação de desempenho em cenários de geração de longo contexto, variando de 1,2% a 47,1%; (2) diferentes séries de LLMs exibem tendências variadas de degradação de desempenho, com o modelo Gemini-1.5-Flash mostrando a menor degradação entre os modelos acessados por API, e a série Qwen2 exibindo a menor degradação no LongGenBench entre os modelos de código aberto.
English
Current long-context benchmarks primarily focus on retrieval-based tests,
requiring Large Language Models (LLMs) to locate specific information within
extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark.
Long-context generation refers to the ability of a language model to generate
coherent and contextually accurate text that spans across lengthy passages or
documents. While recent studies show strong performance on NIAH and other
retrieval-based long-context benchmarks, there is a significant lack of
benchmarks for evaluating long-context generation capabilities. To bridge this
gap and offer a comprehensive assessment, we introduce a synthetic benchmark,
LongGenBench, which allows for flexible configurations of customized generation
context lengths. LongGenBench advances beyond traditional benchmarks by
redesigning the format of questions and necessitating that LLMs respond with a
single, cohesive long-context answer. Upon extensive evaluation using
LongGenBench, we observe that: (1) both API accessed and open source models
exhibit performance degradation in long-context generation scenarios, ranging
from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of
performance degradation, with the Gemini-1.5-Flash model showing the least
degradation among API accessed models, and the Qwen2 series exhibiting the
least degradation in LongGenBench among open source models.Summary
AI-Generated Summary