LongGenBench: Benchmark für die Generierung von Langkontexten
LongGenBench: Long-context Generation Benchmark
October 5, 2024
Autoren: Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu
cs.AI
Zusammenfassung
Aktuelle Benchmarks für lange Kontexte konzentrieren sich hauptsächlich auf tests basierend auf Rückgewinnung, die von Large Language Models (LLMs) verlangen, spezifische Informationen innerhalb umfangreicher Eingangskontexte zu lokalisieren, wie beispielsweise der Nadel-im-Heuhaufen (NIAH) Benchmark. Die Generierung von langem Kontext bezieht sich auf die Fähigkeit eines Sprachmodells, kohärenten und kontextuell genauen Text zu erzeugen, der sich über umfangreiche Passagen oder Dokumente erstreckt. Während aktuelle Studien eine starke Leistung bei NIAH und anderen auf Rückgewinnung basierenden Benchmarks für langen Kontext zeigen, gibt es einen signifikanten Mangel an Benchmarks zur Bewertung der Fähigkeiten zur Generierung von langem Kontext. Um diese Lücke zu schließen und eine umfassende Bewertung anzubieten, stellen wir einen synthetischen Benchmark vor, LongGenBench, der flexible Konfigurationen von benutzerdefinierten Generierungskontextlängen ermöglicht. LongGenBench geht über traditionelle Benchmarks hinaus, indem das Format der Fragen neu gestaltet wird und verlangt wird, dass LLMs mit einer einzigen, kohärenten langen Kontextantwort antworten. Nach umfangreicher Evaluation mit LongGenBench beobachten wir, dass: (1) sowohl API-zugängliche als auch Open-Source-Modelle eine Leistungsverschlechterung in Szenarien der Generierung von langem Kontext aufweisen, die von 1,2 % bis 47,1 % reicht; (2) verschiedene Serien von LLMs zeigen unterschiedliche Trends der Leistungsverschlechterung, wobei das Gemini-1.5-Flash-Modell die geringste Verschlechterung unter den API-zugänglichen Modellen aufweist und die Qwen2-Serie die geringste Verschlechterung in LongGenBench unter den Open-Source-Modellen zeigt.
English
Current long-context benchmarks primarily focus on retrieval-based tests,
requiring Large Language Models (LLMs) to locate specific information within
extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark.
Long-context generation refers to the ability of a language model to generate
coherent and contextually accurate text that spans across lengthy passages or
documents. While recent studies show strong performance on NIAH and other
retrieval-based long-context benchmarks, there is a significant lack of
benchmarks for evaluating long-context generation capabilities. To bridge this
gap and offer a comprehensive assessment, we introduce a synthetic benchmark,
LongGenBench, which allows for flexible configurations of customized generation
context lengths. LongGenBench advances beyond traditional benchmarks by
redesigning the format of questions and necessitating that LLMs respond with a
single, cohesive long-context answer. Upon extensive evaluation using
LongGenBench, we observe that: (1) both API accessed and open source models
exhibit performance degradation in long-context generation scenarios, ranging
from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of
performance degradation, with the Gemini-1.5-Flash model showing the least
degradation among API accessed models, and the Qwen2 series exhibiting the
least degradation in LongGenBench among open source models.Summary
AI-Generated Summary