ChatPaper.aiChatPaper

LongGenBench: Benchmark voor het genereren van lange contexten

LongGenBench: Long-context Generation Benchmark

October 5, 2024
Auteurs: Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu
cs.AI

Samenvatting

Huidige benchmarks voor lange context richten zich voornamelijk op opvragingstests, waarbij van Grote Taalmodellen (GTM's) wordt verwacht dat ze specifieke informatie vinden binnen uitgebreide invoercontexten, zoals de naald-in-een-hooiberg (NIAH) benchmark. Lange-contextgeneratie verwijst naar het vermogen van een taalmodel om coherente en contextueel accurate tekst te genereren die zich uitstrekt over lange passages of documenten. Hoewel recente studies sterke prestaties laten zien op NIAH en andere opvragingsgerichte lange-context benchmarks, is er een aanzienlijk gebrek aan benchmarks voor het evalueren van de generatiemogelijkheden voor lange context. Om deze lacune te dichten en een uitgebreide beoordeling te bieden, introduceren we een synthetische benchmark, LongGenBench, die flexibele configuraties van aangepaste generatiecontextlengtes mogelijk maakt. LongGenBench gaat verder dan traditionele benchmarks door het herontwerpen van de vraagformaten en te eisen dat GTM's reageren met een enkel, samenhangend antwoord voor lange context. Bij uitgebreide evaluatie met LongGenBench observeren we dat: (1) zowel via API benaderde als open source modellen prestatievermindering vertonen in scenario's voor lange-contextgeneratie, variërend van 1,2% tot 47,1%; (2) verschillende series van GTM's vertonen verschillende trends van prestatievermindering, waarbij het Gemini-1.5-Flash model de minste degradatie vertoont onder de via API benaderde modellen, en de Qwen2 serie de minste degradatie vertoont in LongGenBench onder de open source modellen.
English
Current long-context benchmarks primarily focus on retrieval-based tests, requiring Large Language Models (LLMs) to locate specific information within extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark. Long-context generation refers to the ability of a language model to generate coherent and contextually accurate text that spans across lengthy passages or documents. While recent studies show strong performance on NIAH and other retrieval-based long-context benchmarks, there is a significant lack of benchmarks for evaluating long-context generation capabilities. To bridge this gap and offer a comprehensive assessment, we introduce a synthetic benchmark, LongGenBench, which allows for flexible configurations of customized generation context lengths. LongGenBench advances beyond traditional benchmarks by redesigning the format of questions and necessitating that LLMs respond with a single, cohesive long-context answer. Upon extensive evaluation using LongGenBench, we observe that: (1) both API accessed and open source models exhibit performance degradation in long-context generation scenarios, ranging from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of performance degradation, with the Gemini-1.5-Flash model showing the least degradation among API accessed models, and the Qwen2 series exhibiting the least degradation in LongGenBench among open source models.

Summary

AI-Generated Summary

PDF203November 16, 2024