HelloBench: Evaluierung der Fähigkeiten großer Sprachmodelle zur Generierung langer TexteHelloBench: Evaluating Long Text Generation Capabilities of Large
Language Models
In den letzten Jahren haben Large Language Models (LLMs) bemerkenswerte Fähigkeiten in verschiedenen Aufgaben (z.B. Verständnis von langem Kontext) gezeigt, und viele Benchmarks wurden vorgeschlagen. Allerdings stellen wir fest, dass die Fähigkeiten zur Generierung von langen Texten nicht gut untersucht sind. Daher führen wir den Hierarchical Long Text Generation Benchmark (HelloBench) ein, einen umfassenden, in der Praxis verwendeten und offenen Benchmark zur Bewertung der Leistung von LLMs bei der Generierung von langen Texten. Basierend auf Blooms Taxonomie kategorisiert HelloBench langtextgenerierende Aufgaben in fünf Unteraufgaben: offene Fragen, Zusammenfassung, Chat, Textvervollständigung und heuristische Textgenerierung. Darüber hinaus schlagen wir die Hierarchical Long Text Evaluation (HelloEval) vor, eine auf den Menschen ausgerichtete Bewertungsmethode, die den Zeitaufwand für die menschliche Bewertung erheblich reduziert und gleichzeitig eine hohe Korrelation mit der menschlichen Bewertung aufrechterhält. Wir haben umfangreiche Experimente mit rund 30 führenden LLMs durchgeführt und festgestellt, dass die aktuellen LLMs über keine Fähigkeiten zur Generierung von langen Texten verfügen. Insbesondere beobachten wir erstens, dass unabhängig davon, ob die Anweisungen explizite oder implizite Längenbeschränkungen enthalten, die meisten LLMs keinen Text generieren können, der länger als 4000 Wörter ist. Zweitens stellen wir fest, dass während einige LLMs längeren Text generieren können, viele Probleme bestehen (z.B. starke Wiederholungen und Qualitätsverschlechterung). Drittens vergleichen wir zur Demonstration der Wirksamkeit von HelloEval HelloEval mit traditionellen Metriken (z.B. ROUGE, BLEU usw.) und LLM-als-Richter-Methoden, die zeigen, dass HelloEval die höchste Korrelation mit der menschlichen Bewertung aufweist. Wir veröffentlichen unseren Code unter https://github.com/Quehry/HelloBench.