HelloBench: Avaliando as Capacidades de Geração de Texto Longo de Modelos de Linguagem GrandesHelloBench: Evaluating Long Text Generation Capabilities of Large
Language Models
Nos últimos anos, os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em várias tarefas (por exemplo, compreensão de longos contextos), e muitos benchmarks têm sido propostos. No entanto, observamos que as capacidades de geração de texto longo não são bem investigadas. Portanto, introduzimos o Benchmark Hierárquico de Geração de Texto Longo (HelloBench), um benchmark abrangente, em ambiente real e aberto para avaliar o desempenho dos LLMs na geração de texto longo. Com base na Taxonomia de Bloom, o HelloBench categoriza as tarefas de geração de texto longo em cinco subtarefas: perguntas e respostas abertas, sumarização, chat, completamento de texto e geração de texto heurístico. Além disso, propomos a Avaliação Hierárquica de Texto Longo (HelloEval), um método de avaliação alinhado com humanos que reduz significativamente o tempo e esforço necessários para a avaliação humana, mantendo uma alta correlação com a avaliação humana. Realizamos experimentos extensivos em cerca de 30 LLMs mainstream e observamos que os LLMs atuais carecem de capacidades de geração de texto longo. Especificamente, em primeiro lugar, independentemente de as instruções incluírem restrições de comprimento explícitas ou implícitas, observamos que a maioria dos LLMs não consegue gerar texto com mais de 4000 palavras. Em segundo lugar, observamos que, embora alguns LLMs consigam gerar texto mais longo, muitos problemas existem (por exemplo, repetições severas e degradação de qualidade). Em terceiro lugar, para demonstrar a eficácia do HelloEval, comparamos o HelloEval com métricas tradicionais (por exemplo, ROUGE, BLEU, etc.) e métodos de LLM-como-Juiz, que mostram que o HelloEval tem a maior correlação com a avaliação humana. Disponibilizamos nosso código em https://github.com/Quehry/HelloBench.