LongGenBench : Banc d'essai pour la génération de longs contextesLongGenBench: Long-context Generation Benchmark
Les benchmarks actuels à long contexte se concentrent principalement sur des tests basés sur la récupération, nécessitant que les Grands ModÚles de Langue (GML) localisent des informations spécifiques au sein de contextes d'entrée étendus, tels que le benchmark aiguille dans une botte de foin (NIAH). La génération à long contexte fait référence à la capacité d'un modÚle de langue à générer un texte cohérent et contextuellement précis qui s'étend sur de longs passages ou documents. Alors que des études récentes montrent de bonnes performances sur NIAH et d'autres benchmarks à long contexte basés sur la récupération, il existe un manque significatif de benchmarks pour évaluer les capacités de génération à long contexte. Pour combler cette lacune et offrir une évaluation complÚte, nous introduisons un benchmark synthétique, LongGenBench, qui permet des configurations flexibles de longueurs de contexte de génération personnalisées. LongGenBench va au-delà des benchmarks traditionnels en redéfinissant le format des questions et en exigeant que les GML répondent avec une seule réponse longue et cohérente. AprÚs une évaluation approfondie en utilisant LongGenBench, nous observons que : (1) à la fois les modÚles accessibles par API et les modÚles open source présentent une dégradation des performances dans des scénarios de génération à long contexte, allant de 1,2% à 47,1% ; (2) différentes séries de GML présentent des tendances variables de dégradation des performances, le modÚle Gemini-1.5-Flash montrant la moins de dégradation parmi les modÚles accessibles par API, et la série Qwen2 présentant la moins de dégradation dans LongGenBench parmi les modÚles open source.