LongGenBench : Banc d'essai pour la génération de longs contextes

papers.abstract

Les benchmarks actuels à long contexte se concentrent principalement sur des tests basés sur la récupération, nécessitant que les Grands Modèles de Langue (GML) localisent des informations spécifiques au sein de contextes d'entrée étendus, tels que le benchmark aiguille dans une botte de foin (NIAH). La génération à long contexte fait référence à la capacité d'un modèle de langue à générer un texte cohérent et contextuellement précis qui s'étend sur de longs passages ou documents. Alors que des études récentes montrent de bonnes performances sur NIAH et d'autres benchmarks à long contexte basés sur la récupération, il existe un manque significatif de benchmarks pour évaluer les capacités de génération à long contexte. Pour combler cette lacune et offrir une évaluation complète, nous introduisons un benchmark synthétique, LongGenBench, qui permet des configurations flexibles de longueurs de contexte de génération personnalisées. LongGenBench va au-delà des benchmarks traditionnels en redéfinissant le format des questions et en exigeant que les GML répondent avec une seule réponse longue et cohérente. Après une évaluation approfondie en utilisant LongGenBench, nous observons que : (1) à la fois les modèles accessibles par API et les modèles open source présentent une dégradation des performances dans des scénarios de génération à long contexte, allant de 1,2% à 47,1% ; (2) différentes séries de GML présentent des tendances variables de dégradation des performances, le modèle Gemini-1.5-Flash montrant la moins de dégradation parmi les modèles accessibles par API, et la série Qwen2 présentant la moins de dégradation dans LongGenBench parmi les modèles open source.

English

Current long-context benchmarks primarily focus on retrieval-based tests, requiring Large Language Models (LLMs) to locate specific information within extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark. Long-context generation refers to the ability of a language model to generate coherent and contextually accurate text that spans across lengthy passages or documents. While recent studies show strong performance on NIAH and other retrieval-based long-context benchmarks, there is a significant lack of benchmarks for evaluating long-context generation capabilities. To bridge this gap and offer a comprehensive assessment, we introduce a synthetic benchmark, LongGenBench, which allows for flexible configurations of customized generation context lengths. LongGenBench advances beyond traditional benchmarks by redesigning the format of questions and necessitating that LLMs respond with a single, cohesive long-context answer. Upon extensive evaluation using LongGenBench, we observe that: (1) both API accessed and open source models exhibit performance degradation in long-context generation scenarios, ranging from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of performance degradation, with the Gemini-1.5-Flash model showing the least degradation among API accessed models, and the Qwen2 series exhibiting the least degradation in LongGenBench among open source models.

LongGenBench : Banc d'essai pour la génération de longs contextes

LongGenBench: Long-context Generation Benchmark

papers.abstract

Support