ChatPaper.aiChatPaper

Filer le fil d'or : Évaluation de la génération de longs textes dans les modèles de langage

Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

September 3, 2024
Auteurs: Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee
cs.AI

Résumé

Les capacités des modèles de langage à long contexte (LMs) sont souvent évaluées en utilisant le test du "Aiguille dans une botte de foin" (NIAH), qui comprend des tâches conçues pour évaluer la capacité d'un modèle à identifier des informations spécifiques ("aiguille") au sein de grandes séquences de texte ("botte de foin"). Alors que ces références mesurent la compréhension des modèles des séquences d'entrée à long contexte, elles n'évaluent pas efficacement la qualité de la génération de texte à longue forme, un aspect crucial pour des applications telles que les propositions de design et l'écriture créative. Pour combler cette lacune, nous avons introduit un nouveau banc d'essai d'évaluation de texte à longue forme, "Filant le fil d'or" (SGT), qui teste la capacité des modèles à identifier des événements spécifiques au sein de longues séquences de texte généré. Dans ce banc d'essai, nous demandons aux LMs à long contexte de créer un texte à longue forme qui doit inclure des événements ou des contraintes particuliers et évaluons leur capacité à incorporer ces éléments. Nous avons évalué dix LMs à long contexte à travers quatre scénarios distincts, trois types d'instructions de prompt, et deux paramétrages de longueur de génération différents (16K et 32K). Bien que ces modèles se comportent bien sur les références NIAH, aucun n'a démontré des performances satisfaisantes sur "Filant le fil d'or", soulevant des inquiétudes quant à leur capacité à générer un texte à longue forme cohérent suivant les instructions. De plus, à mesure que la longueur du texte généré augmente, tous les modèles présentent une chute significative de performance.
English
The abilities of long-context language models (LMs) are often evaluated using the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to assess a model's ability to identify specific information ("needle") within large text sequences ("haystack"). While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, Spinning the Golden Thread (SGT), which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the Spinning the Golden Thread, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance.

Summary

AI-Generated Summary

PDF123November 16, 2024