HelloBench: Evaluierung der Fähigkeiten großer Sprachmodelle zur Generierung langer Texte
HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models
September 24, 2024
Autoren: Haoran Que, Feiyu Duan, Liqun He, Yutao Mou, Wangchunshu Zhou, Jiaheng Liu, Wenge Rong, Zekun Moore Wang, Jian Yang, Ge Zhang, Junran Peng, Zhaoxiang Zhang, Songyang Zhang, Kai Chen
cs.AI
Zusammenfassung
In den letzten Jahren haben Large Language Models (LLMs) bemerkenswerte Fähigkeiten in verschiedenen Aufgaben (z.B. Verständnis von langem Kontext) gezeigt, und viele Benchmarks wurden vorgeschlagen. Allerdings stellen wir fest, dass die Fähigkeiten zur Generierung von langen Texten nicht gut untersucht sind. Daher führen wir den Hierarchical Long Text Generation Benchmark (HelloBench) ein, einen umfassenden, in der Praxis verwendeten und offenen Benchmark zur Bewertung der Leistung von LLMs bei der Generierung von langen Texten. Basierend auf Blooms Taxonomie kategorisiert HelloBench langtextgenerierende Aufgaben in fünf Unteraufgaben: offene Fragen, Zusammenfassung, Chat, Textvervollständigung und heuristische Textgenerierung. Darüber hinaus schlagen wir die Hierarchical Long Text Evaluation (HelloEval) vor, eine auf den Menschen ausgerichtete Bewertungsmethode, die den Zeitaufwand für die menschliche Bewertung erheblich reduziert und gleichzeitig eine hohe Korrelation mit der menschlichen Bewertung aufrechterhält. Wir haben umfangreiche Experimente mit rund 30 führenden LLMs durchgeführt und festgestellt, dass die aktuellen LLMs über keine Fähigkeiten zur Generierung von langen Texten verfügen. Insbesondere beobachten wir erstens, dass unabhängig davon, ob die Anweisungen explizite oder implizite Längenbeschränkungen enthalten, die meisten LLMs keinen Text generieren können, der länger als 4000 Wörter ist. Zweitens stellen wir fest, dass während einige LLMs längeren Text generieren können, viele Probleme bestehen (z.B. starke Wiederholungen und Qualitätsverschlechterung). Drittens vergleichen wir zur Demonstration der Wirksamkeit von HelloEval HelloEval mit traditionellen Metriken (z.B. ROUGE, BLEU usw.) und LLM-als-Richter-Methoden, die zeigen, dass HelloEval die höchste Korrelation mit der menschlichen Bewertung aufweist. Wir veröffentlichen unseren Code unter https://github.com/Quehry/HelloBench.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable
capabilities in various tasks (e.g., long-context understanding), and many
benchmarks have been proposed. However, we observe that long text generation
capabilities are not well investigated. Therefore, we introduce the
Hierarchical Long Text Generation Benchmark (HelloBench), a comprehensive,
in-the-wild, and open-ended benchmark to evaluate LLMs' performance in
generating long text. Based on Bloom's Taxonomy, HelloBench categorizes long
text generation tasks into five subtasks: open-ended QA, summarization, chat,
text completion, and heuristic text generation. Besides, we propose
Hierarchical Long Text Evaluation (HelloEval), a human-aligned evaluation
method that significantly reduces the time and effort required for human
evaluation while maintaining a high correlation with human evaluation. We have
conducted extensive experiments across around 30 mainstream LLMs and observed
that the current LLMs lack long text generation capabilities. Specifically,
first, regardless of whether the instructions include explicit or implicit
length constraints, we observe that most LLMs cannot generate text that is
longer than 4000 words. Second, we observe that while some LLMs can generate
longer text, many issues exist (e.g., severe repetition and quality
degradation). Third, to demonstrate the effectiveness of HelloEval, we compare
HelloEval with traditional metrics (e.g., ROUGE, BLEU, etc.) and LLM-as-a-Judge
methods, which show that HelloEval has the highest correlation with human
evaluation. We release our code in https://github.com/Quehry/HelloBench.Summary
AI-Generated Summary