Het Spinnen van de Gouden Draad: Benchmarking van Lange-Vorm Generatie in Taalmodellen
Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models
September 3, 2024
Auteurs: Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee
cs.AI
Samenvatting
De vaardigheden van taalmodellen met lange context (LMs) worden vaak geëvalueerd met behulp van de "Needle-in-a-Haystack" (NIAH)-test, die taken omvat die zijn ontworpen om het vermogen van een model te beoordelen om specifieke informatie ("naald") binnen grote tekstreeksen ("hooiberg") te identificeren. Hoewel deze benchmarks meten hoe goed modellen lange contextinvoerreeksen begrijpen, evalueren ze niet effectief de kwaliteit van het genereren van lange teksten—een cruciaal aspect voor toepassingen zoals ontwerpvoorstellen en creatief schrijven. Om dit hiaat aan te pakken, hebben we een nieuwe benchmark voor het evalueren van lange teksten geïntroduceerd, genaamd Spinning the Golden Thread (SGT), die het vermogen van modellen test om specifieke gebeurtenissen binnen gegenereerde lange tekstreeksen te identificeren. In deze benchmark vragen we LMs met lange context om lange teksten te creëren die bepaalde gebeurtenissen of beperkingen moeten bevatten, en evalueren we hun vermogen om deze elementen te integreren. We hebben tien LMs met lange context geëvalueerd in vier verschillende scenario's, drie soorten promptinstructies en twee verschillende instellingen voor generatielengte (16K en 32K). Hoewel deze modellen goed presteren op NIAH-benchmarks, toonde geen enkel model bevredigende prestaties op Spinning the Golden Thread, wat zorgen oproept over hun vermogen om samenhangende lange teksten te genereren die instructies volgen. Bovendien vertonen alle modellen een significante daling in prestaties naarmate de lengte van de gegenereerde tekst toeneemt.
English
The abilities of long-context language models (LMs) are often evaluated using
the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to
assess a model's ability to identify specific information ("needle") within
large text sequences ("haystack"). While these benchmarks measure how well
models understand long-context input sequences, they do not effectively gauge
the quality of long-form text generation--a critical aspect for applications
such as design proposals and creative writing. To address this gap, we have
introduced a new long-form text evaluation benchmark, Spinning the Golden
Thread (SGT), which tests models' ability to identify specific events within
generated long text sequences. In this benchmark, we prompt long-context LMs to
create long-form text that must include particular events or constraints and
evaluate their ability to incorporate these elements. We evaluated ten
long-context LMs across four distinct scenarios, three types of prompt
instructions, and two different generation-length settings (16K and 32K).
Although these models perform well on NIAH benchmarks, none demonstrated
satisfactory performance on the Spinning the Golden Thread, raising concerns
about their ability to generate coherent long-form text that follows
instructions. Additionally, as the length of the generated text increases, all
models exhibit a significant drop in performance.Summary
AI-Generated Summary