ChatPaper.aiChatPaper

Het Spinnen van de Gouden Draad: Benchmarking van Lange-Vorm Generatie in Taalmodellen

Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

September 3, 2024
Auteurs: Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee
cs.AI

Samenvatting

De vaardigheden van taalmodellen met lange context (LMs) worden vaak geëvalueerd met behulp van de "Needle-in-a-Haystack" (NIAH)-test, die taken omvat die zijn ontworpen om het vermogen van een model te beoordelen om specifieke informatie ("naald") binnen grote tekstreeksen ("hooiberg") te identificeren. Hoewel deze benchmarks meten hoe goed modellen lange contextinvoerreeksen begrijpen, evalueren ze niet effectief de kwaliteit van het genereren van lange teksten—een cruciaal aspect voor toepassingen zoals ontwerpvoorstellen en creatief schrijven. Om dit hiaat aan te pakken, hebben we een nieuwe benchmark voor het evalueren van lange teksten geïntroduceerd, genaamd Spinning the Golden Thread (SGT), die het vermogen van modellen test om specifieke gebeurtenissen binnen gegenereerde lange tekstreeksen te identificeren. In deze benchmark vragen we LMs met lange context om lange teksten te creëren die bepaalde gebeurtenissen of beperkingen moeten bevatten, en evalueren we hun vermogen om deze elementen te integreren. We hebben tien LMs met lange context geëvalueerd in vier verschillende scenario's, drie soorten promptinstructies en twee verschillende instellingen voor generatielengte (16K en 32K). Hoewel deze modellen goed presteren op NIAH-benchmarks, toonde geen enkel model bevredigende prestaties op Spinning the Golden Thread, wat zorgen oproept over hun vermogen om samenhangende lange teksten te genereren die instructies volgen. Bovendien vertonen alle modellen een significante daling in prestaties naarmate de lengte van de gegenereerde tekst toeneemt.
English
The abilities of long-context language models (LMs) are often evaluated using the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to assess a model's ability to identify specific information ("needle") within large text sequences ("haystack"). While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, Spinning the Golden Thread (SGT), which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the Spinning the Golden Thread, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance.

Summary

AI-Generated Summary

PDF123November 16, 2024