ChatPaper.aiChatPaper

HelloBench : Évaluation des capacités de génération de longs textes des grands modèles de langage

HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models

September 24, 2024
Auteurs: Haoran Que, Feiyu Duan, Liqun He, Yutao Mou, Wangchunshu Zhou, Jiaheng Liu, Wenge Rong, Zekun Moore Wang, Jian Yang, Ge Zhang, Junran Peng, Zhaoxiang Zhang, Songyang Zhang, Kai Chen
cs.AI

Résumé

Ces dernières années, les Grands Modèles de Langage (GML) ont démontré des capacités remarquables dans diverses tâches (par exemple, la compréhension de longs contextes), et de nombreux benchmarks ont été proposés. Cependant, nous constatons que les capacités de génération de longs textes ne sont pas bien explorées. Par conséquent, nous introduisons le Benchmark de Génération de Longs Textes Hiérarchique (HelloBench), un benchmark complet, en conditions réelles et ouvert, pour évaluer les performances des GML dans la génération de longs textes. Basé sur la Taxonomie de Bloom, HelloBench catégorise les tâches de génération de longs textes en cinq sous-tâches : questions ouvertes, résumés, chat, complétion de texte et génération de texte heuristique. De plus, nous proposons l'Évaluation de Longs Textes Hiérarchique (HelloEval), une méthode d'évaluation alignée sur l'humain qui réduit significativement le temps et les efforts nécessaires à l'évaluation humaine tout en maintenant une forte corrélation avec l'évaluation humaine. Nous avons mené de vastes expériences sur environ 30 GMLs populaires et observé que les GMLs actuels manquent de capacités de génération de longs textes. Plus précisément, tout d'abord, que les instructions incluent des contraintes de longueur explicites ou implicites, nous constatons que la plupart des GMLs ne peuvent pas générer de texte de plus de 4000 mots. Deuxièmement, nous observons que bien que certains GMLs puissent générer des textes plus longs, de nombreux problèmes existent (par exemple, des répétitions sévères et une dégradation de la qualité). Troisièmement, pour démontrer l'efficacité de HelloEval, nous comparons HelloEval avec des métriques traditionnelles (par exemple, ROUGE, BLEU, etc.) et des méthodes de GML-comme-juge, qui montrent que HelloEval a la plus forte corrélation avec l'évaluation humaine. Nous mettons notre code à disposition sur https://github.com/Quehry/HelloBench.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities in various tasks (e.g., long-context understanding), and many benchmarks have been proposed. However, we observe that long text generation capabilities are not well investigated. Therefore, we introduce the Hierarchical Long Text Generation Benchmark (HelloBench), a comprehensive, in-the-wild, and open-ended benchmark to evaluate LLMs' performance in generating long text. Based on Bloom's Taxonomy, HelloBench categorizes long text generation tasks into five subtasks: open-ended QA, summarization, chat, text completion, and heuristic text generation. Besides, we propose Hierarchical Long Text Evaluation (HelloEval), a human-aligned evaluation method that significantly reduces the time and effort required for human evaluation while maintaining a high correlation with human evaluation. We have conducted extensive experiments across around 30 mainstream LLMs and observed that the current LLMs lack long text generation capabilities. Specifically, first, regardless of whether the instructions include explicit or implicit length constraints, we observe that most LLMs cannot generate text that is longer than 4000 words. Second, we observe that while some LLMs can generate longer text, many issues exist (e.g., severe repetition and quality degradation). Third, to demonstrate the effectiveness of HelloEval, we compare HelloEval with traditional metrics (e.g., ROUGE, BLEU, etc.) and LLM-as-a-Judge methods, which show that HelloEval has the highest correlation with human evaluation. We release our code in https://github.com/Quehry/HelloBench.

Summary

AI-Generated Summary

PDF435November 16, 2024