LongGenBench: Benchmark per la generazione di contesti lunghi
LongGenBench: Long-context Generation Benchmark
October 5, 2024
Autori: Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu
cs.AI
Abstract
Attualmente, i benchmark a lungo contesto si concentrano principalmente su test basati su recupero, che richiedono ai Grandi Modelli Linguistici (GML) di individuare informazioni specifiche all'interno di contesti di input estesi, come nel benchmark dell'ago nel pagliaio (NIAH). La generazione a lungo contesto si riferisce alla capacità di un modello linguistico di generare testo coerente e contestualmente accurato che si estende su passaggi o documenti lunghi. Sebbene studi recenti mostrino elevate prestazioni su NIAH e su altri benchmark a lungo contesto basati sul recupero, esiste una significativa mancanza di benchmark per valutare le capacità di generazione a lungo contesto. Per colmare questa lacuna e offrire una valutazione completa, presentiamo un benchmark sintetico, LongGenBench, che consente configurazioni flessibili di lunghezze del contesto di generazione personalizzate. LongGenBench va oltre i benchmark tradizionali ridisegnando il formato delle domande e richiedendo che i GML rispondano con una singola risposta a lungo contesto coesa. Attraverso un'ampia valutazione utilizzando LongGenBench, osserviamo che: (1) sia i modelli accessibili tramite API che quelli open source mostrano degradazione delle prestazioni in scenari di generazione a lungo contesto, che variano dal 1,2% al 47,1%; (2) diverse serie di GML mostrano tendenze diverse di degradazione delle prestazioni, con il modello Gemini-1.5-Flash che mostra la minore degradazione tra i modelli accessibili tramite API, e la serie Qwen2 che mostra la minore degradazione in LongGenBench tra i modelli open source.
English
Current long-context benchmarks primarily focus on retrieval-based tests,
requiring Large Language Models (LLMs) to locate specific information within
extensive input contexts, such as the needle-in-a-haystack (NIAH) benchmark.
Long-context generation refers to the ability of a language model to generate
coherent and contextually accurate text that spans across lengthy passages or
documents. While recent studies show strong performance on NIAH and other
retrieval-based long-context benchmarks, there is a significant lack of
benchmarks for evaluating long-context generation capabilities. To bridge this
gap and offer a comprehensive assessment, we introduce a synthetic benchmark,
LongGenBench, which allows for flexible configurations of customized generation
context lengths. LongGenBench advances beyond traditional benchmarks by
redesigning the format of questions and necessitating that LLMs respond with a
single, cohesive long-context answer. Upon extensive evaluation using
LongGenBench, we observe that: (1) both API accessed and open source models
exhibit performance degradation in long-context generation scenarios, ranging
from 1.2% to 47.1%; (2) different series of LLMs exhibit varying trends of
performance degradation, with the Gemini-1.5-Flash model showing the least
degradation among API accessed models, and the Qwen2 series exhibiting the
least degradation in LongGenBench among open source models.