ChatPaper.aiChatPaper

HelloBench: Оценка возможностей генерации длинных текстов большими моделями языка

HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models

September 24, 2024
Авторы: Haoran Que, Feiyu Duan, Liqun He, Yutao Mou, Wangchunshu Zhou, Jiaheng Liu, Wenge Rong, Zekun Moore Wang, Jian Yang, Ge Zhang, Junran Peng, Zhaoxiang Zhang, Songyang Zhang, Kai Chen
cs.AI

Аннотация

В последние годы крупные языковые модели (LLM) продемонстрировали выдающиеся возможности в различных задачах (например, понимание длинного контекста), и было предложено много бенчмарков. Однако мы замечаем, что возможности генерации длинных текстов плохо изучены. Поэтому мы представляем Бенчмарк Генерации Длинных Текстов с Иерархической Структурой (HelloBench), всесторонний, в естественной среде и открытый бенчмарк для оценки производительности LLM в генерации длинных текстов. Основываясь на Таксономии Блума, HelloBench категоризирует задачи генерации длинных текстов на пять подзадач: открытый вопросно-ответный формат, суммаризация, чат, завершение текста и эвристическая генерация текста. Кроме того, мы предлагаем Иерархическую Оценку Длинных Текстов (HelloEval), метод оценки, согласованный с человеческим восприятием, который значительно сокращает время и усилия, необходимые для человеческой оценки, сохраняя при этом высокую корреляцию с человеческой оценкой. Мы провели обширные эксперименты с около 30 основными LLM и обнаружили, что текущие LLM не обладают возможностями генерации длинных текстов. В частности, во-первых, независимо от того, включают ли инструкции явные или неявные ограничения по длине, мы замечаем, что большинство LLM не могут генерировать текст длиной более 4000 слов. Во-вторых, мы замечаем, что хотя некоторые LLM могут генерировать более длинные тексты, существует множество проблем (например, серьезное повторение и ухудшение качества). В-третьих, чтобы продемонстрировать эффективность HelloEval, мы сравниваем HelloEval с традиционными метриками (например, ROUGE, BLEU и т. д.) и методами LLM-как-судья, которые показывают, что HelloEval имеет наивысшую корреляцию с человеческой оценкой. Мы выкладываем наш код на https://github.com/Quehry/HelloBench.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities in various tasks (e.g., long-context understanding), and many benchmarks have been proposed. However, we observe that long text generation capabilities are not well investigated. Therefore, we introduce the Hierarchical Long Text Generation Benchmark (HelloBench), a comprehensive, in-the-wild, and open-ended benchmark to evaluate LLMs' performance in generating long text. Based on Bloom's Taxonomy, HelloBench categorizes long text generation tasks into five subtasks: open-ended QA, summarization, chat, text completion, and heuristic text generation. Besides, we propose Hierarchical Long Text Evaluation (HelloEval), a human-aligned evaluation method that significantly reduces the time and effort required for human evaluation while maintaining a high correlation with human evaluation. We have conducted extensive experiments across around 30 mainstream LLMs and observed that the current LLMs lack long text generation capabilities. Specifically, first, regardless of whether the instructions include explicit or implicit length constraints, we observe that most LLMs cannot generate text that is longer than 4000 words. Second, we observe that while some LLMs can generate longer text, many issues exist (e.g., severe repetition and quality degradation). Third, to demonstrate the effectiveness of HelloEval, we compare HelloEval with traditional metrics (e.g., ROUGE, BLEU, etc.) and LLM-as-a-Judge methods, which show that HelloEval has the highest correlation with human evaluation. We release our code in https://github.com/Quehry/HelloBench.

Summary

AI-Generated Summary

PDF435November 16, 2024