HelloBench: Het evalueren van de mogelijkheden voor het genereren van lange teksten van grote taalmodellen
HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models
September 24, 2024
Auteurs: Haoran Que, Feiyu Duan, Liqun He, Yutao Mou, Wangchunshu Zhou, Jiaheng Liu, Wenge Rong, Zekun Moore Wang, Jian Yang, Ge Zhang, Junran Peng, Zhaoxiang Zhang, Songyang Zhang, Kai Chen
cs.AI
Samenvatting
In de afgelopen jaren hebben Grote Taalmodellen (LLMs) opmerkelijke capaciteiten gedemonstreerd in verschillende taken (bijv. begrip van lange context), en er zijn veel benchmarks voorgesteld. We merken echter op dat de capaciteiten voor het genereren van lange tekst niet goed onderzocht zijn. Daarom introduceren we de Hiërarchische Benchmark voor het Genereren van Lange Tekst (HelloBench), een uitgebreide, in het wild voorkomende en open benchmark om de prestaties van LLMs te evalueren bij het genereren van lange tekst. Op basis van Bloom's Taxonomie categoriseert HelloBench langetekstgeneratietaken in vijf subtaken: open vragen beantwoorden, samenvatting, chat, tekst aanvullen en heuristisch tekstgeneratie. Daarnaast stellen we de Hiërarchische Evaluatie van Lange Tekst (HelloEval) voor, een evaluatiemethode die sterk is afgestemd op mensen en die aanzienlijk de tijd en moeite vermindert die nodig is voor menselijke evaluatie, terwijl een hoge correlatie met menselijke evaluatie wordt behouden. We hebben uitgebreide experimenten uitgevoerd met ongeveer 30 gangbare LLMs en vastgesteld dat de huidige LLMs tekortschieten in capaciteiten voor het genereren van lange tekst. Specifiek, ten eerste, ongeacht of de instructies expliciete of impliciete lengtebeperkingen bevatten, merken we op dat de meeste LLMs geen tekst kunnen genereren die langer is dan 4000 woorden. Ten tweede, we merken op dat hoewel sommige LLMs langere tekst kunnen genereren, er veel problemen zijn (bijv. ernstige herhaling en kwaliteitsdegradatie). Ten derde, om de effectiviteit van HelloEval aan te tonen, vergelijken we HelloEval met traditionele metrieken (bijv. ROUGE, BLEU, enz.) en LLM-als-rechter methoden, die aantonen dat HelloEval de hoogste correlatie heeft met menselijke evaluatie. We stellen onze code beschikbaar op https://github.com/Quehry/HelloBench.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable
capabilities in various tasks (e.g., long-context understanding), and many
benchmarks have been proposed. However, we observe that long text generation
capabilities are not well investigated. Therefore, we introduce the
Hierarchical Long Text Generation Benchmark (HelloBench), a comprehensive,
in-the-wild, and open-ended benchmark to evaluate LLMs' performance in
generating long text. Based on Bloom's Taxonomy, HelloBench categorizes long
text generation tasks into five subtasks: open-ended QA, summarization, chat,
text completion, and heuristic text generation. Besides, we propose
Hierarchical Long Text Evaluation (HelloEval), a human-aligned evaluation
method that significantly reduces the time and effort required for human
evaluation while maintaining a high correlation with human evaluation. We have
conducted extensive experiments across around 30 mainstream LLMs and observed
that the current LLMs lack long text generation capabilities. Specifically,
first, regardless of whether the instructions include explicit or implicit
length constraints, we observe that most LLMs cannot generate text that is
longer than 4000 words. Second, we observe that while some LLMs can generate
longer text, many issues exist (e.g., severe repetition and quality
degradation). Third, to demonstrate the effectiveness of HelloEval, we compare
HelloEval with traditional metrics (e.g., ROUGE, BLEU, etc.) and LLM-as-a-Judge
methods, which show that HelloEval has the highest correlation with human
evaluation. We release our code in https://github.com/Quehry/HelloBench.Summary
AI-Generated Summary