HelloBench: Оценка возможностей генерации длинных текстов большими моделями языкаHelloBench: Evaluating Long Text Generation Capabilities of Large
Language Models
В последние годы крупные языковые модели (LLM) продемонстрировали выдающиеся возможности в различных задачах (например, понимание длинного контекста), и было предложено много бенчмарков. Однако мы замечаем, что возможности генерации длинных текстов плохо изучены. Поэтому мы представляем Бенчмарк Генерации Длинных Текстов с Иерархической Структурой (HelloBench), всесторонний, в естественной среде и открытый бенчмарк для оценки производительности LLM в генерации длинных текстов. Основываясь на Таксономии Блума, HelloBench категоризирует задачи генерации длинных текстов на пять подзадач: открытый вопросно-ответный формат, суммаризация, чат, завершение текста и эвристическая генерация текста. Кроме того, мы предлагаем Иерархическую Оценку Длинных Текстов (HelloEval), метод оценки, согласованный с человеческим восприятием, который значительно сокращает время и усилия, необходимые для человеческой оценки, сохраняя при этом высокую корреляцию с человеческой оценкой. Мы провели обширные эксперименты с около 30 основными LLM и обнаружили, что текущие LLM не обладают возможностями генерации длинных текстов. В частности, во-первых, независимо от того, включают ли инструкции явные или неявные ограничения по длине, мы замечаем, что большинство LLM не могут генерировать текст длиной более 4000 слов. Во-вторых, мы замечаем, что хотя некоторые LLM могут генерировать более длинные тексты, существует множество проблем (например, серьезное повторение и ухудшение качества). В-третьих, чтобы продемонстрировать эффективность HelloEval, мы сравниваем HelloEval с традиционными метриками (например, ROUGE, BLEU и т. д.) и методами LLM-как-судья, которые показывают, что HelloEval имеет наивысшую корреляцию с человеческой оценкой. Мы выкладываем наш код на https://github.com/Quehry/HelloBench.