Fiar o Fio de Ouro: Avaliando o Desempenho da Geração de Textos Longos em Modelos de Linguagem
Spinning the Golden Thread: Benchmarking Long-Form Generation in Language Models
September 3, 2024
Autores: Yuhao Wu, Ming Shan Hee, Zhiqing Hu, Roy Ka-Wei Lee
cs.AI
Resumo
As habilidades dos modelos de linguagem de longo contexto (LMs) são frequentemente avaliadas usando o teste "Agulha no Palheiro" (NIAH), que compreende tarefas projetadas para avaliar a capacidade de um modelo de identificar informações específicas ("agulha") dentro de sequências de texto extensas ("palheiro"). Enquanto essas referências medem o quão bem os modelos entendem sequências de entrada de longo contexto, elas não avaliam efetivamente a qualidade da geração de texto de longo formato - um aspecto crítico para aplicações como propostas de design e escrita criativa. Para abordar essa lacuna, introduzimos um novo referencial de avaliação de texto de longo formato, Girando o Fio de Ouro (SGT), que testa a capacidade dos modelos de identificar eventos específicos dentro de sequências longas de texto geradas. Neste referencial, solicitamos que LMs de longo contexto criem textos de longo formato que devem incluir eventos ou restrições específicas e avaliamos sua capacidade de incorporar esses elementos. Avaliamos dez LMs de longo contexto em quatro cenários distintos, três tipos de instruções de prompt e duas configurações diferentes de comprimento de geração (16K e 32K). Embora esses modelos tenham um bom desempenho nos testes NIAH, nenhum demonstrou um desempenho satisfatório no Girando o Fio de Ouro, levantando preocupações sobre sua capacidade de gerar textos de longo formato coerentes que sigam as instruções. Além disso, à medida que o comprimento do texto gerado aumenta, todos os modelos apresentam uma queda significativa no desempenho.
English
The abilities of long-context language models (LMs) are often evaluated using
the "Needle-in-a-Haystack" (NIAH) test, which comprises tasks designed to
assess a model's ability to identify specific information ("needle") within
large text sequences ("haystack"). While these benchmarks measure how well
models understand long-context input sequences, they do not effectively gauge
the quality of long-form text generation--a critical aspect for applications
such as design proposals and creative writing. To address this gap, we have
introduced a new long-form text evaluation benchmark, Spinning the Golden
Thread (SGT), which tests models' ability to identify specific events within
generated long text sequences. In this benchmark, we prompt long-context LMs to
create long-form text that must include particular events or constraints and
evaluate their ability to incorporate these elements. We evaluated ten
long-context LMs across four distinct scenarios, three types of prompt
instructions, and two different generation-length settings (16K and 32K).
Although these models perform well on NIAH benchmarks, none demonstrated
satisfactory performance on the Spinning the Golden Thread, raising concerns
about their ability to generate coherent long-form text that follows
instructions. Additionally, as the length of the generated text increases, all
models exhibit a significant drop in performance.Summary
AI-Generated Summary