ChatPaper.aiChatPaper

Fiar o Fio de Ouro: Avaliando o Desempenho da Geração de Textos Longos em Modelos de Linguagem

Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models

September 3, 2024
Autores: Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee
cs.AI

Resumo

As habilidades dos modelos de linguagem de longo contexto (LMs) são frequentemente avaliadas usando o teste "Agulha no Palheiro" (NIAH), que compreende tarefas projetadas para avaliar a capacidade de um modelo de identificar informações específicas ("agulha") dentro de sequências de texto extensas ("palheiro"). Enquanto essas referências medem o quão bem os modelos entendem sequências de entrada de longo contexto, elas não avaliam efetivamente a qualidade da geração de texto de longo formato - um aspecto crítico para aplicações como propostas de design e escrita criativa. Para abordar essa lacuna, introduzimos um novo referencial de avaliação de texto de longo formato, Girando o Fio de Ouro (SGT), que testa a capacidade dos modelos de identificar eventos específicos dentro de sequências longas de texto geradas. Neste referencial, solicitamos que LMs de longo contexto criem textos de longo formato que devem incluir eventos ou restrições específicas e avaliamos sua capacidade de incorporar esses elementos. Avaliamos dez LMs de longo contexto em quatro cenários distintos, três tipos de instruções de prompt e duas configurações diferentes de comprimento de geração (16K e 32K). Embora esses modelos tenham um bom desempenho nos testes NIAH, nenhum demonstrou um desempenho satisfatório no Girando o Fio de Ouro, levantando preocupações sobre sua capacidade de gerar textos de longo formato coerentes que sigam as instruções. Além disso, à medida que o comprimento do texto gerado aumenta, todos os modelos apresentam uma queda significativa no desempenho.
English
The abilities of long-context language models (LMs) are often evaluated using the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to assess a model's ability to identify specific information ("needle") within large text sequences ("haystack"). While these benchmarks measure how well models understand long-context input sequences, they do not effectively gauge the quality of long-form text generation--a critical aspect for applications such as design proposals and creative writing. To address this gap, we have introduced a new long-form text evaluation benchmark, Spinning the Golden Thread (SGT), which tests models' ability to identify specific events within generated long text sequences. In this benchmark, we prompt long-context LMs to create long-form text that must include particular events or constraints and evaluate their ability to incorporate these elements. We evaluated ten long-context LMs across four distinct scenarios, three types of prompt instructions, and two different generation-length settings (16K and 32K). Although these models perform well on NIAH benchmarks, none demonstrated satisfactory performance on the Spinning the Golden Thread, raising concerns about their ability to generate coherent long-form text that follows instructions. Additionally, as the length of the generated text increases, all models exhibit a significant drop in performance.

Summary

AI-Generated Summary

PDF123November 16, 2024