HelloBench: Evaluando las capacidades de generación de texto largo de los Modelos de Lenguaje Grandes
HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models
September 24, 2024
Autores: Haoran Que, Feiyu Duan, Liqun He, Yutao Mou, Wangchunshu Zhou, Jiaheng Liu, Wenge Rong, Zekun Moore Wang, Jian Yang, Ge Zhang, Junran Peng, Zhaoxiang Zhang, Songyang Zhang, Kai Chen
cs.AI
Resumen
En los últimos años, los Modelos de Lenguaje de Gran Tamaño (LLMs, por sus siglas en inglés) han demostrado capacidades notables en diversas tareas (por ejemplo, comprensión de contextos largos), y se han propuesto muchos puntos de referencia. Sin embargo, observamos que las capacidades de generación de texto largo no han sido investigadas a fondo. Por lo tanto, presentamos el Benchmark Jerárquico de Generación de Texto Largo (HelloBench), un benchmark exhaustivo, en entornos reales y abierto para evaluar el rendimiento de los LLMs en la generación de texto largo. Basado en la Taxonomía de Bloom, HelloBench categoriza las tareas de generación de texto largo en cinco subtareas: preguntas abiertas, resúmenes, chat, completado de texto y generación de texto heurístico. Además, proponemos la Evaluación Jerárquica de Texto Largo (HelloEval), un método de evaluación alineado con humanos que reduce significativamente el tiempo y esfuerzo requeridos para la evaluación humana, manteniendo una alta correlación con la evaluación humana. Hemos realizado experimentos extensos en alrededor de 30 LLMs principales y observamos que los LLMs actuales carecen de capacidades de generación de texto largo. Específicamente, en primer lugar, independientemente de si las instrucciones incluyen restricciones de longitud explícitas o implícitas, observamos que la mayoría de los LLMs no pueden generar texto que supere las 4000 palabras. En segundo lugar, observamos que aunque algunos LLMs pueden generar texto más largo, existen muchos problemas (por ejemplo, repetición severa y degradación de calidad). En tercer lugar, para demostrar la efectividad de HelloEval, comparamos HelloEval con métricas tradicionales (por ejemplo, ROUGE, BLEU, etc.) y métodos LLM-como-Juez, lo que muestra que HelloEval tiene la mayor correlación con la evaluación humana. Publicamos nuestro código en https://github.com/Quehry/HelloBench.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable
capabilities in various tasks (e.g., long-context understanding), and many
benchmarks have been proposed. However, we observe that long text generation
capabilities are not well investigated. Therefore, we introduce the
Hierarchical Long Text Generation Benchmark (HelloBench), a comprehensive,
in-the-wild, and open-ended benchmark to evaluate LLMs' performance in
generating long text. Based on Bloom's Taxonomy, HelloBench categorizes long
text generation tasks into five subtasks: open-ended QA, summarization, chat,
text completion, and heuristic text generation. Besides, we propose
Hierarchical Long Text Evaluation (HelloEval), a human-aligned evaluation
method that significantly reduces the time and effort required for human
evaluation while maintaining a high correlation with human evaluation. We have
conducted extensive experiments across around 30 mainstream LLMs and observed
that the current LLMs lack long text generation capabilities. Specifically,
first, regardless of whether the instructions include explicit or implicit
length constraints, we observe that most LLMs cannot generate text that is
longer than 4000 words. Second, we observe that while some LLMs can generate
longer text, many issues exist (e.g., severe repetition and quality
degradation). Third, to demonstrate the effectiveness of HelloEval, we compare
HelloEval with traditional metrics (e.g., ROUGE, BLEU, etc.) and LLM-as-a-Judge
methods, which show that HelloEval has the highest correlation with human
evaluation. We release our code in https://github.com/Quehry/HelloBench.Summary
AI-Generated Summary