ChatPaper.aiChatPaper

HelloBench: Avaliando as Capacidades de Geração de Texto Longo de Modelos de Linguagem Grandes

HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models

September 24, 2024
Autores: Haoran Que, Feiyu Duan, Liqun He, Yutao Mou, Wangchunshu Zhou, Jiaheng Liu, Wenge Rong, Zekun Moore Wang, Jian Yang, Ge Zhang, Junran Peng, Zhaoxiang Zhang, Songyang Zhang, Kai Chen
cs.AI

Resumo

Nos últimos anos, os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em várias tarefas (por exemplo, compreensão de longos contextos), e muitos benchmarks têm sido propostos. No entanto, observamos que as capacidades de geração de texto longo não são bem investigadas. Portanto, introduzimos o Benchmark Hierárquico de Geração de Texto Longo (HelloBench), um benchmark abrangente, em ambiente real e aberto para avaliar o desempenho dos LLMs na geração de texto longo. Com base na Taxonomia de Bloom, o HelloBench categoriza as tarefas de geração de texto longo em cinco subtarefas: perguntas e respostas abertas, sumarização, chat, completamento de texto e geração de texto heurístico. Além disso, propomos a Avaliação Hierárquica de Texto Longo (HelloEval), um método de avaliação alinhado com humanos que reduz significativamente o tempo e esforço necessários para a avaliação humana, mantendo uma alta correlação com a avaliação humana. Realizamos experimentos extensivos em cerca de 30 LLMs mainstream e observamos que os LLMs atuais carecem de capacidades de geração de texto longo. Especificamente, em primeiro lugar, independentemente de as instruções incluírem restrições de comprimento explícitas ou implícitas, observamos que a maioria dos LLMs não consegue gerar texto com mais de 4000 palavras. Em segundo lugar, observamos que, embora alguns LLMs consigam gerar texto mais longo, muitos problemas existem (por exemplo, repetições severas e degradação de qualidade). Em terceiro lugar, para demonstrar a eficácia do HelloEval, comparamos o HelloEval com métricas tradicionais (por exemplo, ROUGE, BLEU, etc.) e métodos de LLM-como-Juiz, que mostram que o HelloEval tem a maior correlação com a avaliação humana. Disponibilizamos nosso código em https://github.com/Quehry/HelloBench.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities in various tasks (e.g., long-context understanding), and many benchmarks have been proposed. However, we observe that long text generation capabilities are not well investigated. Therefore, we introduce the Hierarchical Long Text Generation Benchmark (HelloBench), a comprehensive, in-the-wild, and open-ended benchmark to evaluate LLMs' performance in generating long text. Based on Bloom's Taxonomy, HelloBench categorizes long text generation tasks into five subtasks: open-ended QA, summarization, chat, text completion, and heuristic text generation. Besides, we propose Hierarchical Long Text Evaluation (HelloEval), a human-aligned evaluation method that significantly reduces the time and effort required for human evaluation while maintaining a high correlation with human evaluation. We have conducted extensive experiments across around 30 mainstream LLMs and observed that the current LLMs lack long text generation capabilities. Specifically, first, regardless of whether the instructions include explicit or implicit length constraints, we observe that most LLMs cannot generate text that is longer than 4000 words. Second, we observe that while some LLMs can generate longer text, many issues exist (e.g., severe repetition and quality degradation). Third, to demonstrate the effectiveness of HelloEval, we compare HelloEval with traditional metrics (e.g., ROUGE, BLEU, etc.) and LLM-as-a-Judge methods, which show that HelloEval has the highest correlation with human evaluation. We release our code in https://github.com/Quehry/HelloBench.

Summary

AI-Generated Summary

PDF435November 16, 2024