HelloBench: Valutazione delle capacità di generazione di testi lunghi dei grandi modelli linguistici
HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models
September 24, 2024
Autori: Haoran Que, Feiyu Duan, Liqun He, Yutao Mou, Wangchunshu Zhou, Jiaheng Liu, Wenge Rong, Zekun Moore Wang, Jian Yang, Ge Zhang, Junran Peng, Zhaoxiang Zhang, Songyang Zhang, Kai Chen
cs.AI
Abstract
Negli ultimi anni, i Grandi Modelli Linguistici (LLM) hanno dimostrato notevoli capacità in varie attività (ad esempio, comprensione del contesto lungo), e sono stati proposti molti benchmark. Tuttavia, osserviamo che le capacità di generazione di testi lunghi non sono ben indagate. Pertanto, introduciamo il Benchmark Gerarchico per la Generazione di Testi Lunghi (HelloBench), un benchmark completo, in condizioni reali e aperto per valutare le prestazioni dei LLM nella generazione di testi lunghi. Basandoci sulla Taxonomia di Bloom, HelloBench categorizza le attività di generazione di testi lunghi in cinque sotto-task: domande aperte, riassunti, chat, completamento di testi e generazione di testi euristici. Inoltre, proponiamo la Valutazione Gerarchica di Testi Lunghi (HelloEval), un metodo di valutazione allineato con l'umano che riduce significativamente il tempo e lo sforzo richiesti per la valutazione umana mantenendo una forte correlazione con la valutazione umana. Abbiamo condotto ampi esperimenti su circa 30 LLM di mainstream e osservato che i LLM attuali mancano di capacità di generazione di testi lunghi. In particolare, in primo luogo, indipendentemente dal fatto che le istruzioni includano vincoli di lunghezza espliciti o impliciti, osserviamo che la maggior parte dei LLM non riesce a generare testi più lunghi di 4000 parole. In secondo luogo, osserviamo che mentre alcuni LLM possono generare testi più lunghi, esistono molti problemi (ad esempio, ripetizioni gravi e degrado della qualità). In terzo luogo, per dimostrare l'efficacia di HelloEval, confrontiamo HelloEval con metriche tradizionali (ad esempio, ROUGE, BLEU, ecc.) e metodi LLM-come-Giudice, che mostrano che HelloEval ha la più alta correlazione con la valutazione umana. Rilasciamo il nostro codice su https://github.com/Quehry/HelloBench.
English
In recent years, Large Language Models (LLMs) have demonstrated remarkable
capabilities in various tasks (e.g., long-context understanding), and many
benchmarks have been proposed. However, we observe that long text generation
capabilities are not well investigated. Therefore, we introduce the
Hierarchical Long Text Generation Benchmark (HelloBench), a comprehensive,
in-the-wild, and open-ended benchmark to evaluate LLMs' performance in
generating long text. Based on Bloom's Taxonomy, HelloBench categorizes long
text generation tasks into five subtasks: open-ended QA, summarization, chat,
text completion, and heuristic text generation. Besides, we propose
Hierarchical Long Text Evaluation (HelloEval), a human-aligned evaluation
method that significantly reduces the time and effort required for human
evaluation while maintaining a high correlation with human evaluation. We have
conducted extensive experiments across around 30 mainstream LLMs and observed
that the current LLMs lack long text generation capabilities. Specifically,
first, regardless of whether the instructions include explicit or implicit
length constraints, we observe that most LLMs cannot generate text that is
longer than 4000 words. Second, we observe that while some LLMs can generate
longer text, many issues exist (e.g., severe repetition and quality
degradation). Third, to demonstrate the effectiveness of HelloEval, we compare
HelloEval with traditional metrics (e.g., ROUGE, BLEU, etc.) and LLM-as-a-Judge
methods, which show that HelloEval has the highest correlation with human
evaluation. We release our code in https://github.com/Quehry/HelloBench.Summary
AI-Generated Summary