LongGenBench : Banc d'essai pour la génération de longs contextes
LongGenBench: Long-context Generation Benchmark
October 5, 2024
Auteurs: Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu
cs.AI
Résumé
Les benchmarks actuels à long contexte se concentrent principalement sur des tests basés sur la récupération, nécessitant que les Grands Modèles de Langue (GML) localisent des informations spécifiques au sein de contextes d'entrée étendus, tels que le benchmark aiguille dans une botte de foin (NIAH). La génération à long contexte fait référence à la capacité d'un modèle de langue à générer un texte cohérent et contextuellement précis qui s'étend sur de longs passages ou documents. Alors que des études récentes montrent de bonnes performances sur NIAH et d'autres benchmarks à long contexte basés sur la récupération, il existe un manque significatif de benchmarks pour évaluer les capacités de génération à long contexte. Pour combler cette lacune et offrir une évaluation complète, nous introduisons un benchmark synthétique, LongGenBench, qui permet des configurations flexibles de longueurs de contexte de génération personnalisées. LongGenBench va au-delà des benchmarks traditionnels en redéfinissant le format des questions et en exigeant que les GML répondent avec une seule réponse longue et cohérente. Après une évaluation approfondie en utilisant LongGenBench, nous observons que : (1) à la fois les modèles accessibles par API et les modèles open source présentent une dégradation des performances dans des scénarios de génération à long contexte, allant de 1,2% à 47,1% ; (2) différentes séries de GML présentent des tendances variables de dégradation des performances, le modèle Gemini-1.5-Flash montrant la moins de dégradation parmi les modèles accessibles par API, et la série Qwen2 présentant la moins de dégradation dans LongGenBench parmi les modèles open source.
English
Current long-context benchmarks primarily focus on retrieval-based tests,
requiring Large Language Models (LLMs) to locate specific information within
extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark.
Long-context generation refers to the ability of a language model to generate
coherent and contextually accurate text that spans across lengthy passages or
documents. While recent studies show strong performance on NIAH and other
retrieval-based long-context benchmarks, there is a significant lack of
benchmarks for evaluating long-context generation capabilities. To bridge this
gap and offer a comprehensive assessment, we introduce a synthetic benchmark,
LongGenBench, which allows for flexible configurations of customized generation
context lengths. LongGenBench advances beyond traditional benchmarks by
redesigning the format of questions and necessitating that LLMs respond with a
single, cohesive long-context answer. Upon extensive evaluation using
LongGenBench, we observe that: (1) both API accessed and open source models
exhibit performance degradation in long-context generation scenarios, ranging
from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of
performance degradation, with the Gemini-1.5-Flash model showing the least
degradation among API accessed models, and the Qwen2 series exhibiting the
least degradation in LongGenBench among open source models.Summary
AI-Generated Summary